yenzal
本站致力于IT相关技术的分享
使用Clojure构建Data Lakehouse的事务性元数据层以应对CAP权衡 使用Clojure构建Data Lakehouse的事务性元数据层以应对CAP权衡
一个数据处理任务在凌晨三点失败了。它成功写入了1TB数据中的700GB到数据湖,然后因为一个暂时的网络故障而崩溃。现在,数据湖处于一个不一致的、损坏的状态。下游的报表和机器学习模型读取了这些不完整的数据,造成了整个业务线的混乱。这种场景是原
2023-10-27
使用 ASP.NET Core 和 Clean Architecture 构建写入 Apache Hudi 的 CDC 数据管道并部署于 Nomad 使用 ASP.NET Core 和 Clean Architecture 构建写入 Apache Hudi 的 CDC 数据管道并部署于 Nomad
我们面临一个典型的数据工程难题:核心业务的 PostgreSQL 数据库承载了大量的在线事务处理(OLTP),但分析团队需要近乎实时地查询这些数据。直接在生产库上跑复杂的分析查询是不可接受的,这会严重影响核心业务性能。传统的夜间批量 ETL
2023-10-27
集成Playwright、Zipkin与WebAssembly构建高保真综合监控管道 集成Playwright、Zipkin与WebAssembly构建高保真综合监控管道
问题的起点很明确:前端E2E测试失败了,但我们不知道是哪个后端服务拖慢了整个响应。Playwright的截图和视频记录了用户看到的失败,而Zipkin的链路追踪图谱展示了后端微服务间的调用延迟。这两者之间存在一条巨大的鸿沟。用户体验的失败无
2023-10-27
构建基于GitHub Actions OIDC与SAML的EKS上Ray集群零信任部署管道 构建基于GitHub Actions OIDC与SAML的EKS上Ray集群零信任部署管道
在生产环境中,静态的、长期有效的AWS Access Key ID 和 Secret Access Key 是一个必须被根除的安全隐患。将它们作为GitHub Secrets存储,用于CI/CD流水线,本质上只是将风险从开发者的本地机器转移
2023-10-27
为集成 Django 与 Java 的异构系统构建统一的 esbuild 和 Jib 高效容器化流水线 为集成 Django 与 Java 的异构系统构建统一的 esbuild 和 Jib 高效容器化流水线
我们的项目 CI 流水线曾经是一场灾难。一个包含了 Django API、React 前端和一个小型 Java 数据处理服务的异构代码库,单次全量构建和推送镜像的时间稳定在20分钟以上。其中,Django 服务的镜像构建是最大的瓶셔颈,由于
2023-10-27
构建基于Go和XState的事件驱动型Scikit-learn模型训练编排器 构建基于Go和XState的事件驱动型Scikit-learn模型训练编排器
管理一个机器学习模型的训练生命周期,本质上是一个复杂的状态管理问题。一个典型的训练任务可能包含数据校验、预处理、特征工程、模型训练、评估、版本化等多个阶段,其中任何一步都可能成功、失败或长时间运行。在真实项目中,我们常常面对的挑战是:如何构
4 / 5