logo of tongyi

通义Token Foundry-大模型Post-Training 算法专家-杭州/北京

社招全职1年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1. 计算机、人工智能、数学等相关专业硕士及以上学历。具有 1 年以上 NLP / LLM 领域一线研发经验。
2. 对大模型的 Post-Training 阶段有全局视角的理解,曾作为核心骨干完整参与过百亿/千亿级别模型的 SFTRLHF 迭代过程,熟悉各阶段的坑与解法。
3. 熟练掌握主流的对齐算法(如 SFT、DPO、GRPO、PPO 等)及其底层数学逻辑;熟悉 Megatron-LM、Deep…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责大模型从 Pre-SFT、SFT 到 RLHF (DPO/PPO/GRPO等) 全阶段的算法调优与策略设计,提升模型在风格控制、安全合规、领域知识注入、多轮交互逻辑、文创、指令遵循、情绪控制、Agent Planning 等核心维度的综合能力
2. 设计高质量 SFT、RL 等数据采集、清洗和标注方案,建立数据质量评估标准和流程,持续提升数据质量和多样性
3. 参与模型合版工作,包括数据配比策略、多任务训练优化、灾难性遗忘缓解等核心技术,确保各业务线智能体能力与基座模型的高效融合
4. 探索多模态(文本、视觉、音频等)场景下的 Post-Training 方案,解决跨模态对齐与幻觉问题,探索高质量数据的合成、Self-Play、Agentic RL 等方法,与 Pretrain、RL、评测团队紧密配合,推动基座模型面向应用的全流程优化
5. 参与 APP 对话助手产品的效果优化,通过精细化的 SFT/RL 策略提升对话质量、安全性与用户体验
包括英文材料
学历+
NLP+
大模型+
SFT+
RLHF+
算法+
还有更多 •••