logo of tongyi

通义通义实验室-大模型Post-training算法工程师-通义千问

社招全职1年以上技术类-算法地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 计算机、机器学习等方向相关专业,博士及硕士优先。
2. 具有 post-training 或强化学习相关方向经验。
3. 精通 Python 以及 Pytorch深度学习框架,具有较强的代码工程能力。

加分项:…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


在蕴含丰富世界知识的预训练模型的基础上,我们利用 Post-train 打造出我们想要的能够服务人类的 AI 模型。我们通过 RL、SFT、RFT 等技术,探索大模型潜能的同时,也在塑造大模型的能力与性格。本着为人类服务的目标,我们的 Post-train 将会重点探索其推理能力,实现深度思考,并致力于提升其 Agent 能力,让大模型服务于真实世界的任务。

工作职责:
1. 探索更多可 scalable 的 verifier 信号,并通过 RL 提升模型的各项能力。
2. 提升 reward model 在创作、人类偏好、指令遵循等各专项上的能力,减少reward hacking和bias。
3. 研究 reasoning path压缩和外推,实现更高质量的推理思考。
4. 将LLM的推理能力和Agent以及其他模态相结合,探索统一模态的reasoning。
包括英文材料
机器学习+
强化学习+
Python+
PyTorch+
深度学习+
大模型+
还有更多 •••
相关职位

logo of tongyi
社招1年以上技术类-算法

在蕴含丰富世界知识的预训练模型的基础上,我们利用 Post-train 打造出我们想要的能够服务人类的 AI 模型。我们通过 RL、SFT、RFT 等技术,探索大模型潜能的同时,也在塑造大模型的能力与性格。本着为人类服务的目标,我们的 Post-train 将会重点探索其推理能力,实现深度思考,并致力于提升其 Agent 能力,让大模型服务于真实世界的任务。 工作职责: 1. 探索更多可 scalable 的 verifier 信号,并通过 RL 提升模型的各项能力。 2. 提升 reward model 在创作、人类偏好、指令遵循等各专项上的能力,减少reward hacking和bias。 3. 研究 reasoning path压缩和外推,实现更高质量的推理思考。 4. 将LLM的推理能力和Agent以及其他模态相结合,探索统一模态的reasoning。

更新于 2025-06-05北京|杭州|上海
logo of aliyun
社招3年以上云智能集团

1. 行业解决方案设计与交付 - 基于阿里云大模型技术(如通义千问),为银行、保险、证券等金融客户量身定制AI大模型解决方案,覆盖AI财富助手、智能客服、智能风控等核心场景。 - 深入理解客户业务痛点,提供从需求分析、技术选型到方案落地的全流程支持,确保大模型技术与金融业务深度融合。 2. 大模型全生命周期技术赋能 - 主导客户侧大模型后训练(Post-training)、领域微调(Domain-specific Fine-tuning)、模型蒸馏(Distillation)及多模态融合优化,提升模型在金融垂直场景的精度及性能。 - 优化大模型训练与推理性能,包括分布式训练加速(如DeepSpeed、Megatron-LM)、显存优化、量化压缩(INT8/FP16)及低延迟推理部署(如vLLM、SGLang)等。 3. 工程化落地与性能调优 - 解决金融场景高并发、高稳定性需求,设计高性能计算架构,优化模型在GPU/TPU集群的训练效率及端到端推理链路。 - 结合金融行业数据隐私与安全要求,设计符合监管的模型部署方案。 4. 客户技术赋能与生态共建 - 面向客户技术团队提供大模型技术培训、实战工作坊及POC验证,推动AI能力在客户内部的规模化应用。 - 沉淀金融行业大模型最佳实践,输出白皮书、案例研究及标准化解决方案,提升阿里云在金融AI领域的市场影响力。

更新于 2025-12-09深圳|广州
logo of tongyi
社招2年以上技术类-算法

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 视觉语言理解能力是Qwen最重要的能力之一,围绕 LLM 建设出具有视觉深度理解与推理能力的基座模型是团队的必经之路。结合视觉理解和推理能力的基础模型,将拓展到视频理解,GUI Agent,以及VLA 和机器人等场景中。团队负责:1)多模态基础模型的研发,包括融合视觉语言的跨模态理解模型设计,提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing等核心能力,并优化多模态大模型AI infra;2)探索多模态Agent和推理能力,构建支持网络世界(PC/Mobile/Web/游戏)交互的通用智能体;3)研究生成与理解统一的模型架构,实现跨模态生成与推理的协同优化。 工作职责 1. 多模态Pre-training:开展研究及进行实验。研究内容包括:数据清洗与筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态Post-training:迭代Post-training训练策略(SFT/RLHF),专项能力数据迭代,参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用Agent:通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,打造多模态的Test Scaling Laws,并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成:构建视觉统一理解生成大模型,推进多模态统一生成与理解的推理和交互新范式。

更新于 2026-04-02北京|杭州|上海
logo of tongyi
社招1年以上技术类-算法

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 模型评估的方法决定了我们训练什么样的大模型,构建AGI模型的第一步应当是思考我们如何评测模型。随着技术的快速发展,传统的评测逐渐不适应当前的模型能力,我们需要研发下一代大模型评估系统,从而实现让大模型更好地执行真实世界任务进而服务人类的目标。 工作职责: 1. 挖掘大模型弱点,持续快速构建覆盖各项模型能力的评测数据集,探索可靠、具有可扩展性的评测方案。 2. 参与 LLM-as-a-Judge 方案构建,训练 LLM Judge / Reward Model,建模人类偏好并提升长尾任务的评价准确性。 3. 参与 Reward System 构建,设计 Reward Signal、合成对应数据,并通过 RL提升模型的能力上限。 4. 参与开发 Evaluation、Reward System 所需工程框架,简化各类测试任务和模型集成流程,帮助提高团队效率。

更新于 2026-04-02北京|杭州|上海