阿里巴巴业务技术-AI Agent 后训练专家（急招）-杭州

社招全职2年以上2026-07-01地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 本科及以上学历，具备计算机科学/人工智能/统计学/数学或相关专业背景
2. 2年以上软件工程经验，1年以上LLM算法经验，精通Python/JAVA等主流编程语言
3. 深入掌握SFT、RLHF、DPO、PPO等主流后训练算法，能够根据业务场景选择和优化算法
4. …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

加入我们，你将构建阿里集团企业级Agent平台后训练技术体系，支撑核心电商、零售、本地生活等丰富业务场景的AI方案效果持续提升，通过先进AI技术探索，持续提升业务效果迭代飞轮，发现新的业务机会！

具体你将会负责：
1. Agent效果优化体系建设
    ○ 构建面向Agent平台的模型后训练技术体系，包括SFT（监督微调）、RLHF（基于人类反馈的强化学习）、DPO（直接偏好优化）等技术栈
    ○ 设计并实施Agent效果持续优化的数据飞轮机制，实现模型能力的自动化迭代升级
2. 平台化能力建设
    ○ 将复杂的后训练技术封装为平台化能力，降低业务方使用门槛
    ○ 支持多种场景的Agent定制化优化，如对话理解、任务规划、工具调用等
3. 评测与对齐体系
    ○ 建立Agent效果评测体系，包括自动化评测和人工评测
    ○ 设计偏好学习和人类反馈收集机制，确保Agent行为符合业务预期

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

算法+

Python+

还有更多 •••

登录查看完整学习资料