阿里巴巴业务技术-AI Agent 后训练专家(急招)-杭州
社招全职2年以上地点:杭州状态:招聘
任职要求
1. 本科及以上学历,具备计算机科学/人工智能/统计学/数学或相关专业背景 2. 2年以上软件工程经验,1年以上LLM算法经验,精通Python/JAVA等主流编程语言 3. 深入掌握SFT、RLHF、DPO、PPO等主流后训练算法,能够根据业务场景选择和优化算法 4. …
登录查看完整任职要求
微信扫码,1秒登录
工作职责
加入我们,你将构建阿里集团企业级Agent平台后训练技术体系,支撑核心电商、零售、本地生活等丰富业务场景的AI方案效果持续提升,通过先进AI技术探索,持续提升业务效果迭代飞轮,发现新的业务机会!
具体你将会负责:
1. Agent效果优化体系建设
○ 构建面向Agent平台的模型后训练技术体系,包括SFT(监督微调)、RLHF(基于人类反馈的强化学习)、DPO(直接偏好优化)等技术栈
○ 设计并实施Agent效果持续优化的数据飞轮机制,实现模型能力的自动化迭代升级
2. 平台化能力建设
○ 将复杂的后训练技术封装为平台化能力,降低业务方使用门槛
○ 支持多种场景的Agent定制化优化,如对话理解、任务规划、工具调用等
3. 评测与对齐体系
○ 建立Agent效果评测体系,包括自动化评测和人工评测
○ 设计偏好学习和人类反馈收集机制,确保Agent行为符合业务预期包括英文材料
学历+
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
还有更多 •••