logo of alibaba

阿里巴巴业务技术-AI Agent 后训练专家(急招)-杭州

社招全职2年以上地点:杭州状态:招聘

任职要求


1. 本科及以上学历,具备计算机科学/人工智能/统计学/数学或相关专业背景
2. 2年以上软件工程经验,1年以上LLM算法经验,精通Python/JAVA等主流编程语言
3. 深入掌握SFT、RLHF、DPO、PPO等主流后训练算法,能够根据业务场景选择和优化算法
4. …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


加入我们,你将构建阿里集团企业级Agent平台后训练技术体系,支撑核心电商、零售、本地生活等丰富业务场景的AI方案效果持续提升,通过先进AI技术探索,持续提升业务效果迭代飞轮,发现新的业务机会!

具体你将会负责:
1. Agent效果优化体系建设
    ○ 构建面向Agent平台的模型后训练技术体系,包括SFT(监督微调)、RLHF(基于人类反馈的强化学习)、DPO(直接偏好优化)等技术栈
    ○ 设计并实施Agent效果持续优化的数据飞轮机制,实现模型能力的自动化迭代升级
2. 平台化能力建设
    ○ 将复杂的后训练技术封装为平台化能力,降低业务方使用门槛
    ○ 支持多种场景的Agent定制化优化,如对话理解、任务规划、工具调用等
3. 评测与对齐体系
    ○ 建立Agent效果评测体系,包括自动化评测和人工评测
    ○ 设计偏好学习和人类反馈收集机制,确保Agent行为符合业务预期
包括英文材料
学历+
大模型+
算法+
Python+
还有更多 •••