logo of alibaba

阿里巴巴业务技术-AI Agent 后训练专家(急招)-杭州

社招全职2年以上地点:杭州状态:招聘

任职要求


1. 本科及以上学历,具备计算机科学/人工智能/统计学/数学或相关专业背景
2. 2年以上软件工程经验,1年以上LLM算法经验,精通Python/JAVA等主流编程语言
3. 深入掌握SFT、RLHF、DPO、PPO等主流后训练算法,能够根据业务场景选择和优化算法
4. …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


加入我们,你将构建阿里集团企业级Agent平台后训练技术体系,支撑核心电商、零售、本地生活等丰富业务场景的AI方案效果持续提升,通过先进AI技术探索,持续提升业务效果迭代飞轮,发现新的业务机会!

具体你将会负责:
1. Agent效果优化体系建设
    ○ 构建面向Agent平台的模型后训练技术体系,包括SFT(监督微调)、RLHF(基于人类反馈的强化学习)、DPO(直接偏好优化)等技术栈
    ○ 设计并实施Agent效果持续优化的数据飞轮机制,实现模型能力的自动化迭代升级
2. 平台化能力建设
    ○ 将复杂的后训练技术封装为平台化能力,降低业务方使用门槛
    ○ 支持多种场景的Agent定制化优化,如对话理解、任务规划、工具调用等
3. 评测与对齐体系
    ○ 建立Agent效果评测体系,包括自动化评测和人工评测
    ○ 设计偏好学习和人类反馈收集机制,确保Agent行为符合业务预期
包括英文材料
学历+
大模型+
算法+
Python+
还有更多 •••
相关职位

logo of alibaba
社招3年以上

你可以获得: • 参与前沿AI技术研发,引领行业技术发展 • 与顶尖技术团队协作,攻克技术难题 • 技术成果直接服务海量用户,创造实际价值 • 完整的技术成长路径和职业发展机会 1. AI应用系统构建 • 设计和构建基于大模型的AI应用系统,包括智能客服、代码助手、AI运维等产品 • 运用指令微调(SFT)、强化学习(RLHF/DPO)等技术优化模型在特定场景的表现 • 构建完整的AI应用架构,涵盖数据处理、模型部署、用户交互等全链路 2. Agent智能体开发 • 设计和实现智能Agent系统,具备任务规划、工具调用、多轮交互等核心能力 • 构建多Agent协同框架,实现智能体间的分工协作和知识共享 • 探索Agent在复杂业务场景中的应用模式,如自动化运维、智能分析等 3. 业务场景优化 • 深入理解业务需求,将AI技术与实际场景深度结合,提升用户体验 • 优化AI应用在多轮对话、知识问答、决策支持等场景的效果和效率 • 与产品和工程团队协作,推动AI应用从原型到生产的完整落地

更新于 2025-10-29杭州
logo of alibaba
社招2年以上

1. 立足AI Agent研发运维视角,贯穿整个技术栈,在稳定、体验、效率和成本这四个方面持续进行优化 2. 基于AI研发领域的MaaS/PaaS/IaaS,进行模型训练与推理的算力保障,并提升资源使用率 3. 统性地提升Agent研发、部署、运行阶段的稳定性,适应Agent QPS、模型推理TPM每年提升1个量级的发展速度 4. 主导解决Agent研发运维过程中各类疑难问题,并推进完善产品与平台的能力 5. 系统性构建故障节点、慢节点检测平台化能力,响应并解决日常大模型任务的故障问题 6. 负责LLM 后训练(SFT、RLHF/RLAIF 等)相关链路稳定性治理、规范建设:理解研发与优化 LLM + RL/HRF 相关训练框架,提升扩展性、稳定性与性能(吞吐、显存占用、收敛效率等)。结合分布式训练技术(如 tensor / pipeline / data parallel),优化多机多卡训练性能和资源利用率。 7. 平台稳定性与工程质量:建设训练平台的观测与运维体系,完善监控、告警、日志与故障排查工具;持续提升平台的稳定性、可调试性和可维护性,产出高质量技术文档与设计方案。

更新于 2025-12-15杭州
logo of didi
社招技术

1. 负责Data+AI场景下大模型(LLM)、智能体(Agent)的算法研发、优化及落地应用。 2. 负责大模型后训练、AI Agent领域相关前沿算法的调研、设计与优化;主导大模型的架构设计、训练与调优工作;构建高效的模型评估与监控体系,确保模型性能和稳定性。 3. 与产品、工程等团队紧密协作,针对业务场景设计并实现高效的Prompt工程策略、模型微调方案及性能优化技术,推动算法成果在实际场景中的应用。 4. 关注行业前沿技术趋势,结合业务需求进行技术选型与方案验证;撰写技术文档和研究报告,参与或主持相关学术交流,推动团队技术能力提升,提升公司技术竞争力。

更新于 2026-01-13
logo of antgroup
社招3年以上技术类-算法

1、负责支付宝数字化风险防控体系能力的建设,包括数字内容、电商商品、短视频、直播互动等领域,应用大模型(不限于LLM、MLLM、AI Agent等)进行风险防控的能力建设; 2、负责支付宝数字化风险领域面向智能领域的全面升级,设计算法解决方案,解决疑难点问题,规划中长期发展路线,推动算法的长期迭代; 3、根据业务场景制定有效的模型训练方案,解决算法领域相关重/难点问题,协同团队达成相关模型的性能指标,创造业务价值和技术价值; 4、不断探索前沿智能技术,进行重点难点技术攻关工作。

更新于 2025-09-16北京|杭州