阿里巴巴业务技术-AI Agent基建开发工程师-供给智能
任职要求
1、计算机科学、人工智能、软件工程或相关专业本科及以上学历; 2、熟练掌握 Java/Python 等编程语言,具备扎实的数据结构、数据库、操作系统、计算机网络等基础理论知识,以及较强的学习能力; 3、熟悉SpringBoot、Mybatis等常用开发框架,熟悉缓存、消息队列等开源中…
工作职责
关于我们 我们在淘天内部打造面向 AI Agent 的工程基础设施:让不同业务团队可以在统一平台上完成 Agent构建→ 数据采集 → 训练/对齐 → 评测 → 发布 → 线上监控与迭代 的全生命周期闭环,真正做到“平台即生产力”。我们希望把 Agent 的研发从“手工作坊”升级为“工业化流水线”,让创新更快发生、让落地更稳定可控。 你将获得什么 ● 做业内稀缺的 Agent 工程化底座:从上下文管理、工具编排、数据闭环、训练评测一体化到线上治理,搭建可规模化复用的平台能力。 ● 多团队、多方向的真实落地:平台会被内部多个团队复用,你做的每个能力都能在不同业务里验证价值,影响面广、成长快。 ● 工程技术的纵深挑战:既要懂模型与 Agent 范式,也要懂系统工程(稳定性、成本、效率、可观测性、安全治理),是“硬核工程”的最佳战场。 ● 清晰的发展路径:成长为 Agent 平台架构师 / 技术负责人 / AI 工程化专家,推动团队方法论与关键能力组件化在公司内部平台化沉淀与规模化复用,提升多业务线研发效率与交付质量。 岗位职责 1、构建 AI Agent 工程基础设施,设计并实现覆盖Agent构建、数据采集、模型训练、评测、发布、优化迭代的全生命周期工程体系; 2、推动 Agent 基建智能化场景的工程落地,提升大模型在自主规划、RAG 增强生成、智能数据标注与采集、训练自动化等方面的能力; 3、跟踪 LLM与Agent 领域的国际前沿技术动态,推动工程技术创新落地,支持复杂任务规划、多模态交互等能力的工程实现; 4、构建端到端的 Agent 评测与自动化工具链,提升 Agent 系统性能与效率,打造业内领先的 AI Agent 技术方案,并支持内部多业务团队在平台上自主开发与落地。
1、参与或负责剪映CapCut、即梦、醒图等产品的后端核心链路工作,后续重点是向AI后端架构演进; 2、视频工具:参与剪映CapCut视频编辑器及AI能力的研发工作,包括但不限于智能成片,多轨道编辑器,数字人,音乐生成,生图生视频等核心AI能力; 3、内容生态:参与剪映CapCut模板内容生态的研发工作,包括模板作者增长、作者激励、模板分发等核心链路; 4、AI基建:参与AI网关能力建设,包括排队、审核、流量调度、限流等基础能力,同时参与AI算法工程优化、推理加速等; 5、商业化:参与会员营收链路的建设工作,包括权益供给、订单交易、权益消费、营收增长等核心链路,同时精细化各种商业化相关策略,保障业务营收&用户体验的双赢; 6、即梦:参与即梦生图、生视频、数字人核心链路、即梦内容社区、故事Agent、创作Agent等工程研发工作,保障核心链路稳定性、做好架构升级演进、优化成本和性能。
关于我们 我们正在淘天复杂业务场景中构建“可持续进化”的 AI Agent:不仅能回答问题,更能从每一次交互中学习、反思并自我优化。团队聚焦 高质量训练数据闭环 与 Agent 自动化评测体系 两大核心方向,在商家经营、智能决策等高复杂度场景中持续落地,已形成从数据采集、质量评估、清洗增强到模型训练与线上验证的完整飞轮。 我们相信,高质量、可扩展的路径级(Chain-of-Action, CoA)数据是 Agent 能力跃迁的燃料。当前,我们正系统性构建面向规划、推理与工具调用的自动化数据生产与评估基础设施,期待你的加入。 你将获得什么 ● 在丰富的真实业务场景中验证价值:技术迭代直接应用于公司的Agent平台,影响成百上千真实业务场景的Agent,快速进入线上验证闭环,获取业务价值和真实反馈。 ● 对Agent数据构建和评估的深刻理解:从大规模轨迹数据采集、多维质量评估指标设计,到 SFT/RL 训练数据增强与人机协同标注体系,既能做算法创新,也能打造高可用数据基建; ● 充分的业务场景真实数据与计算资源: 团队训练资源充足,能在不同架构/不同规模模型上完成微调、对齐与能力专项提升,并形成可复用的训练范式,充分利用各种开源/闭源模型的能力。 ● 个人技术成长:支持多元化方向发展,鼓励对外分享与论文/专利沉淀。 岗位职责 1、主导基于大模型的AI Agent全生命周期研发,包括通用型及垂直领域AI Agent的应用架构设计、数据构建、模型训练与评测; 2、重点探索模型后训练数据质量评估和清洗Pipeline的体系化构建,构建高质量路径级(CoA)训练数据的自动化校验和清洗方案; 3、运用SFT、RL等Post-training训练方法,提升大模型在自主规划(Planning)、多步推理、RAG增强生成、工具调用、数据问答等方面的能力; 4、跟踪LLM与Agent领域的国际前沿技术动态,推动技术创新在业务场景中的落地应用,重点关注模型评测Benchmark、数据构建、Agent自动化评测等技术和应用方向; 5、结合AI基建产品构建起人机协同的Agent训练数据质量和规模的持续提升优化技术能力,为各垂类Agent构建起高质量的训练数据池。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。