novelso
本站致力于IT相关技术的分享
构建基于GitOps与Pulsar的实时特征存储及自动化质量监控系统 构建基于GitOps与Pulsar的实时特征存储及自动化质量监控系统
构建一个机器学习特征存储(Feature Store)的初衷,是为了解决模型训练与在线推理之间特征计算不一致的经典问题。但一个只解决了“一致性”的特征存储在生产环境中远远不够,很快它就会演变成一个难以维护、质量参差不齐的数据沼泽。真正的挑战
2023-10-27
使用 Kotlin 构建基于 Pulsar 的高韧性异步数据处理管道并集成 Sentry 自我监控 使用 Kotlin 构建基于 Pulsar 的高韧性异步数据处理管道并集成 Sentry 自我监控
我们面临一个日益普遍的问题:多个微服务以半结构化的JSON格式向集中式日志系统抛出大量事件。这些事件混杂了业务指标、调试信息和潜在的错误堆栈。直接将这些原始数据流对接到下游的分析系统或错误监控平台,不仅成本高昂,而且效率低下。关键的错误信号
2023-10-27
使用 Pulumi 编排 ZooKeeper 实现 Delta Lake 的外部并发写控制 使用 Pulumi 编排 ZooKeeper 实现 Delta Lake 的外部并发写控制
我们团队的一个核心数据平台遇到的瓶颈,不是计算或存储,而是元数据管理。具体来说,是针对同一个 Delta Lake 表的高并发写入冲突。业务场景要求多个独立的ETL作业、流处理应用,甚至一些临时的数据修复脚本,同时对一张核心事实表进行追加写
2023-10-27
采用测试驱动开发构建从MongoDB到Snowflake的Flink Exactly-Once数据管道 采用测试驱动开发构建从MongoDB到Snowflake的Flink Exactly-Once数据管道
我们面临一个棘手的工程问题:一个核心业务系统使用 MongoDB 作为其生产数据库,其模式(Schema)高度动态,频繁地添加字段以适应快速迭代的业务需求。与此同时,分析团队需要将这些数据近乎实时地同步到 Snowflake 数据仓库中进行
2023-10-27