
智能互联基础设施与稳定性工程-AI Infra数据开发工程师-基础设施资源管理
任职要求
1、本科及以上学历,计算机科学、统计学、数学、电子工程或相关专业;硕士及以上优先。 2、3 年以上数据开发、数据分析或AI Infra相关工作经验; 3、有 AI Infra或云计算平台相关数据开发或者研发经验者优先;了解 AI 基础设施架构(GPU 资源调度、RDM…
工作职责
1、整合 GPU/CPU 算力、存储(如 CPFS)、网络(如 RDMA/InfiniBand)、供应链流转等多维度数据,构建资源使用率、成本结构与供需分析模型,输出可落地的优化建议; 2、整合资源效能和业务性能指标(如MFU、TPM、TPOT、GPU 利用率等),建立资源效能评估模型,量化资源投入与业务产出之间的关系,为资源规划与采购决策提供数据支撑; 3、负责 AI Infra 资源数仓的数据链路设计与建设,覆盖数据采集、清洗、加工、存储与服务全流程,保障资源数据的准确性、一致性与时效性; 4、构建并维护资源数据可视化平台,开发资源热力图、利用率趋势、成本分摊仪表盘等,支撑日常运营与管理层决策; 5、与资源运营、财务、研发等团队紧密协作,搭建资源生命周期关键指标看板,定期输出资源效能分析报告,支撑资源采购与部署策略落地。

围绕软件工程过程,建设「让所有AlAgent产品可靠运行」的基础设施产品,定义Agent基础设施产品的全生命周期,设计让Agent“快、稳、准"的 底层产品体系,支撑数十万开发者在Al-Native时代的软件工程实践。 1.负责AgentInfra的产品规划,围绕产品分析、软件交付、可测试性、技术风险控制、协作效率、研发资产管理等定义关键产品能力。 2.以VibeCoding的方式利用AI工具,一体化传统PD、交互、前端角色,快速迭代验证产品思考并转化为产品力。 3.结合Al发展趋势,持续追踪先进的Agent产品及HarnessEngineering等工程实践演进,确保产品技术路线的先进性。 4.保持平台的开放性,服务于多样化的业务场景与Agent军团业态,放大作用域。 5.建立有效的产品跟踪体系,持续验证并优化产品对技术产能的实际贡献,形成完整的价值闭环。
我们是京东云,作为京东集团面向企业、政府等机构的技术服务品牌,是更懂产业的数智化解决方案提供商,致力于为企业、金融机构、政府等各类客户提供以供应链为基础的数智化解决方案。依托公、专、混的全栈式云产品矩阵,我们融合了人工智能、大数据、物联网等前沿科技,在零售、物流、健康、智能城市、金融科技等行业领域为客户提供了丰富的产品与数字化解决方案,帮助客户降低成本、提升效率,是值得信赖的产业数字合作伙伴。 岗位职责: 1. 负责京东云AI基础设施产品的质量保障工作,为上层AI开发提供高性能计算/网络、AI存储、大模型网关、大模型训练/推理、大数据开发等高质量底层技术产品; 2. 深度使用AI技术构建产品质量保障体系,反馈问题,评价版本质量; 3. 参与自动化测试框架及测试pipeline建设,持续提高提测质量和测试效率。
1.post-training 框架研发,聚焦 LLM + RL 方向,设计框架架构与技术路线,提升其扩展性、稳定性与效率; 2.优化框架性能,如训练速度、显存占用等,降低训练成本,为 LLM + RL 训练提供有力技术支撑; 3.协同业务团队,将 LLM 能力在业务场景落地,根据业务需求定制训练方案并评估验证模型; 4.负责模型训练和推理所需的IaaS基础设施的规划、迭代与框架维护,致力于提供一致性、可扩展、高可靠的平台技术底座。