阿里巴巴业务技术-Agent应用算法工程师-供给智能
任职要求
1、计算机/人工智能/数学等相关专业硕士及以上学历(博士及顶会论文发表者优先); 2、熟悉 MoE 模型架构设计和原理,具有 MoE 模型预训练或强化学习训练实操经验者优先; 3、精通 Python 及 PyTorch/TensorFlow 等框架,具备 Qwen、Llama、Deepseek 等模型二次…
工作职责
关于我们 我们致力于把大模型 Agent 打造成“能解决业务问题的生产力系统”:不仅会对话,更能规划、推理、调用工具、洞察数据,在多个业务场景形成端到端闭环。团队长期坚持“学术先进性 + 工程可落地 + 指标可验证”三位一体,推动多项技术在真实业务中规模化应用,并持续输出可复用的训练与评测体系。 你将获得什么 ● 覆盖多模型、多尺寸的系统化训练能力:团队训练资源充足,能在不同架构/不同规模模型上完成微调、对齐与能力专项提升,并形成可复用的训练范式。 ● 论文级问题 + 业务级验证:我们鼓励你做可发表的创新,同时确保每个方向都能进入线上评测与业务闭环,真正做到 有创新、有落地、有收益。 ● 完整的 Agent RL 研发舞台:从环境构建、Reward 设计、策略优化到自动评估工具链,你将能主导一条完整的 RL-Driven Agent 能力演进路径。 ● 个人影响力与成长:支持对外分享、论文/专利沉淀与跨团队共建 岗位职责 1、主导基于大模型的 AI Agent 全生命周期研发,包括通用型及垂直领域 AI Agent 的应用架构设计、数据构建、模型训练与评测; 2、运用 SFT、RL 等 Post-training 训练方法,提升大模型在自主规划(Planning)、多步推理、RAG 增强生成、工具调用、数据问答等方面的能力; 3、构建 Agent RL 所需的环境与训练方法,设计合理的 Reward Function 和优化函数,激发模型在垂直领域内的泛化性,探索无/少人类专家样本依赖的 Agent 优化方案; 4、跟踪 LLM 与 Agent 领域的国际前沿技术动态,推动技术创新在业务场景中的落地应用,重点突破工具集成复杂推理、数据洞察、AI 搜索等方向的应用创新; 5、持续优化 Agent 算法与系统架构,构建端到端智能体评测体系,开发自动化评估工具与多维评价指标,提升系统性能与效率。
1、主导基于大模型的AI Agent全生命周期研发,包括通用型及垂直领域AI Agent的应用架构设计、数据构建、模型训练与评测; 2、运用SFT、RL等Post-training训练方法,提升大模型在自主规划(Planning)、多步推理、RAG增强生成、工具调用、数据问答、文案生成等方面的能力; 3、构建Agent RL所需的环境、训练方法,设计合理的Reward Function和优化函数,激发模型在垂直领域内的泛化性,探索无/少人类专家样本依赖的Agent优化方案; 4、跟踪LLM与Agent领域的国际前沿技术动态,推动技术创新在业务场景中的落地应用,重点突破工具集成复杂推理、数据洞察、AI搜索、图像连续编辑、GUI Agent等方向的应用创新; 4、持续优化Agent算法与系统架构,构建端到端的智能体评测体系,开发自动化评估工具与多维评价指标,提升Agent系统性能与效率
关于我们 我们正在淘天复杂业务场景中构建“可持续进化”的 AI Agent:不仅能回答问题,更能从每一次交互中学习、反思并自我优化。团队聚焦 高质量训练数据闭环 与 Agent 自动化评测体系 两大核心方向,在商家经营、智能决策等高复杂度场景中持续落地,已形成从数据采集、质量评估、清洗增强到模型训练与线上验证的完整飞轮。 我们相信,高质量、可扩展的路径级(Chain-of-Action, CoA)数据是 Agent 能力跃迁的燃料。当前,我们正系统性构建面向规划、推理与工具调用的自动化数据生产与评估基础设施,期待你的加入。 你将获得什么 ● 在丰富的真实业务场景中验证价值:技术迭代直接应用于公司的Agent平台,影响成百上千真实业务场景的Agent,快速进入线上验证闭环,获取业务价值和真实反馈。 ● 对Agent数据构建和评估的深刻理解:从大规模轨迹数据采集、多维质量评估指标设计,到 SFT/RL 训练数据增强与人机协同标注体系,既能做算法创新,也能打造高可用数据基建; ● 充分的业务场景真实数据与计算资源: 团队训练资源充足,能在不同架构/不同规模模型上完成微调、对齐与能力专项提升,并形成可复用的训练范式,充分利用各种开源/闭源模型的能力。 ● 个人技术成长:支持多元化方向发展,鼓励对外分享与论文/专利沉淀。 岗位职责 1、主导基于大模型的AI Agent全生命周期研发,包括通用型及垂直领域AI Agent的应用架构设计、数据构建、模型训练与评测; 2、重点探索模型后训练数据质量评估和清洗Pipeline的体系化构建,构建高质量路径级(CoA)训练数据的自动化校验和清洗方案; 3、运用SFT、RL等Post-training训练方法,提升大模型在自主规划(Planning)、多步推理、RAG增强生成、工具调用、数据问答等方面的能力; 4、跟踪LLM与Agent领域的国际前沿技术动态,推动技术创新在业务场景中的落地应用,重点关注模型评测Benchmark、数据构建、Agent自动化评测等技术和应用方向; 5、结合AI基建产品构建起人机协同的Agent训练数据质量和规模的持续提升优化技术能力,为各垂类Agent构建起高质量的训练数据池。
1、搭建面向行业运营场景的AI应用,负责agent设计、业务模型抽象、工程开发等工作,促进运营方式更加智能化。 2、负责统一的智能运营平台建设,探索AI-Native的研发模式和应用形态,提升AI运营应用的研发效果和效率。 3、熟悉行业运营业务,通过技术驱动运营方式的变革,打造有影响力的AI应用产品。