novelso
本站致力于IT相关技术的分享
10
27
构建基于Haskell的MLOps推理网关并集成OpenTelemetry与死信队列容错机制 构建基于Haskell的MLOps推理网关并集成OpenTelemetry与死信队列容错机制
一个生产环境的机器学习模型推理服务,其真正的挑战并非模型本身,而是围绕它构建的一整套可观测、高可用的基础设施。当请求量从每秒几十次上升到数千甚至数万次时,零星的网络抖动、下游模型服务的瞬时过载、或者一次失败的模型更新,都可能导致数据丢失和服
27
27
27
27
构建基于containerd与死信队列的TensorFlow异步任务执行器 构建基于containerd与死信队列的TensorFlow异步任务执行器
我们的机器学习团队面临一个典型但棘手的工程问题:模型训练脚本的执行环境混乱,失败后的追踪与重试机制基本为零。一个复杂的tf.data预处理任务在凌晨三点因为一个临时的网络抖动或是一个脏数据样本导致OOM而崩溃,第二天早上才被发现,这不仅浪费
2023-10-27
27
3 / 5