logo of antgroup

蚂蚁金服蚂蚁集团-AI研发平台技术专家-杭州/上海/北京【数据平台】

社招全职3年以上技术类-开发地点:北京 | 上海 | 杭州状态:招聘

任职要求


1. 具备扎实的计算机相关基础知识,如Linux编程环境、数据库应用、基础网络、常用算法等;
2. 精通Java/Python/Golang中至少一门语言的工程化实践,具备高并发/分布式系统开发经验,熟悉语言生态下的主流框架与工具链
3. 对如下一个或多个领域有深入理解和实践,或有浓厚兴趣:
  (1)机器学习工程化方向:深度参与过LLM/NLP/多模态/搜索推荐系统等领域的全链路技术实现。具备MLOps体系建设经验,包括但不限于训练框架适配、模型服务平台开发、监控治理系统设计
    (2)大模型前沿技术方向: 掌握大模型高效微调技术体系(Lora/P-Tuning/RLHF),精通量化压缩、动态批处理等推理…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作,覆盖机器学习系统多个子方向领域的工作,包括:数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等,建设支持AI全链路的研发平台与AI垂类应用开发平台,实现算法研发效率、和资源利用率的最大化,灵活可扩展的支持不同领域的个性化应用开发需求,为蚂蚁大模型研发链路及应用研发探索新的研发模式;
2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性。
包括英文材料
Linux+
算法+
Java+
Python+
Go+
高并发+
分布式系统+
机器学习+
大模型+
NLP+
推荐系统+
系统设计+
还有更多 •••
相关职位

logo of antgroup
社招3年以上技术-基础平台

1. 负责大模型分布式训练/推理系统性能优化及配套工具研发,包括软硬件协同的模型结构设计与训推系统升级,覆盖MegatronLM、SGLang、Vllm、RL系统等,以及超大规模数据和模型参数下的存储、计算、网络联合优化。 2. 负责多模态数据提取系统研发,结合大模型、传统小模型、Agents等技术,以及异构计算下的流批一体系统,建设高质量多模态数据加工和分析系统。 3. 推动基础引擎与大模型、异构硬件等新技术形态的应用落地,保持在行业内的前沿水平。

更新于 2026-03-27北京|上海|杭州
logo of aliyun
社招5年以上云智能集团

1、技术方案设计 • 收集、识别、分析平台设计目标及管理需求,围绕资源管理平台确定相应技术方案的目标、范围和交付成果; • 基于需求分析,进行技术可行性分析和方案评审,结合当前的技术架构进行合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责核心功能的架构与代码模板的编写,开发与维护资源管理平台核心业务模块,优化程序性能等; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等; • 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。 3、安全、稳定、效率和性能优化 • 运用产品优化技术和方法,实现安全保障和优化系统性能,提高平台系统安全性及客户使用体验。 4、技术预研 • 跟踪和了解国内外资源管理平台技术发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。 5、技术规划 • 理解业务重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-22北京|杭州|上海
logo of aliyun
社招5年以上云智能集团

1. 负责新一代AI驱动的PC产品质量保证工作与团队建设,主导质量团队的组织架构设计、人才梯队培养及绩效管理,打造一支具备系统底层、应用上层及 AI 评测能力的复合型质量团队,对最终产品交付质量与用户体验负责; 2. 构建覆盖“安卓系统-上层应用-AI Agent"的全链路质量保证体系。主导跨域质量架构设计,解决终端稳定性兼容性、云边端协同、分布式系统一致性、AI非确定性输出等复杂质量挑战,制定统一的质量门禁与发布准出标准,确保端到端交付质量; 3. 引领测试技术的智能化转型,探索"AI for Testing"与"Testing for AI"双轮驱动模式。一方面将 AI 能力融入自动化测试、用例生成、缺陷分析等环节提升效能;另一方面建立针对 AI Agent/LLM 产品的专项评估体系(如准确性、安全性、幻觉检测),解决非确定性输出的质量挑战,保持行业技术领先性; 4. 主导测试能力平台化与服务化建设,构建系统级、应用级、服务端及 AI 评估的自动化用例库。推动质量能力与 CI/CD 流水线深度集成,实现代码变更的自动化质量卡点。打造自助式质量验证平台,赋能研发、运维及合作伙伴,降低质量验证门槛,提升整体交付效率; 5. 建立多维度的质量度量体系,结合线上监控、灰度发布数据及用户反馈,驱动质量问题的根因分析与持续改进闭环,对线上重大质量事故负责,建立快速响应与防御机制,保障业务连续性。

更新于 2026-03-27北京|深圳|杭州
logo of aligenie
社招5年以上

1. 负责新一代AI驱动的PC产品质量保证工作与团队建设,主导质量团队的组织架构设计、人才梯队培养及绩效管理,打造一支具备系统底层、应用上层及 AI 评测能力的复合型质量团队,对最终产品交付质量与用户体验负责; 2. 构建覆盖“安卓系统-上层应用-AI Agent"的全链路质量保证体系。主导跨域质量架构设计,解决终端稳定性兼容性、云边端协同、分布式系统一致性、AI非确定性输出等复杂质量挑战,制定统一的质量门禁与发布准出标准,确保端到端交付质量; 3. 引领测试技术的智能化转型,探索"AI for Testing"与"Testing for AI"双轮驱动模式。一方面将 AI 能力融入自动化测试、用例生成、缺陷分析等环节提升效能;另一方面建立针对 AI Agent/LLM 产品的专项评估体系(如准确性、安全性、幻觉检测),解决非确定性输出的质量挑战,保持行业技术领先性; 4. 主导测试能力平台化与服务化建设,构建系统级、应用级、服务端及 AI 评估的自动化用例库。推动质量能力与 CI/CD 流水线深度集成,实现代码变更的自动化质量卡点。打造自助式质量验证平台,赋能研发、运维及合作伙伴,降低质量验证门槛,提升整体交付效率; 5. 建立多维度的质量度量体系,结合线上监控、灰度发布数据及用户反馈,驱动质量问题的根因分析与持续改进闭环,对线上重大质量事故负责,建立快速响应与防御机制,保障业务连续性。

更新于 2026-04-01北京|深圳|杭州