novelso
本站致力于IT相关技术的分享
基于 Kubebuilder 构建管理 Jupyter Notebook 生命周期的 MLOps Operator 基于 Kubebuilder 构建管理 Jupyter Notebook 生命周期的 MLOps Operator
团队里数据科学家的开发环境管理正逐渐失控。最初,我们为每个项目维护一套 Deployment 和 Service 的 YAML 文件,但随着项目增多,环境的差异化(不同的 Python 库、资源需求、存储挂载)导致 YAML 文件爆炸式增长
2023-10-27
构建支持动态模型加载的 MLOps gRPC 推理服务 构建支持动态模型加载的 MLOps gRPC 推理服务
在 MLOps 体系中,模型部署远非将一个序列化文件打包进API服务那么简单。一个常见的生产挑战是模型的频繁迭代与无缝更新。当数据科学家产出一个新版本的模型时,我们不能为了部署它而停机,更不能粗暴地替换掉旧模型,因为旧版本可能仍在服务于某些
2023-10-27
基于消息队列与配置中心为BentoML实现动态可插拔的推理工作流 基于消息队列与配置中心为BentoML实现动态可插拔的推理工作流
我们的模型服务迭代正变得越来越痛苦。最初,BentoML为我们提供了一个清晰的打包和部署规范,这很好。但随着业务逻辑的膨胀,问题也随之而来:每次上游需要一个新的特征预处理,或者下游需要一种新的结果格式化方式,整个BentoML服务就必须重新
2023-10-27
构建基于containerd与死信队列的TensorFlow异步任务执行器 构建基于containerd与死信队列的TensorFlow异步任务执行器
我们的机器学习团队面临一个典型但棘手的工程问题:模型训练脚本的执行环境混乱,失败后的追踪与重试机制基本为零。一个复杂的tf.data预处理任务在凌晨三点因为一个临时的网络抖动或是一个脏数据样本导致OOM而崩溃,第二天早上才被发现,这不仅浪费
2023-10-27
构建基于 Fastify 与 Puppeteer 的高并发视觉回归 MLOps 推理服务 构建基于 Fastify 与 Puppeteer 的高并发视觉回归 MLOps 推理服务
技术痛点前端组件和数据可视化看板的迭代速度越来越快,随之而来的是一个棘手的问题:视觉回归(Visual Regression)。一个微小的数据格式变更或CSS调整,就可能导致整个仪表盘布局错乱或图表渲染失败。传统的单元测试和端到端测试覆盖不
2023-10-27