通义基础模型评估系统算法工程师

校招全职通义2026届秋季校园招聘2025-08-22地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1. 来自全球Top高校计算机科学、人工智能、机器学习、深度学习，或相关领域应届毕业生，博士/硕士毕业生优先。
2. 了解 LLM Evaluation（评测方案与评测数据构建）或具有 post-training（SFT、RL等）训练和数据合成经验。
3. 具有较强的代码工程能力，精通 Python 以及 Pytorch 等深度学习框架；熟悉 Transformer 架构以及大语言模型基础知识。
4. 在国际顶级计算…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。

团队致力于研发下一代大模型评估系统，从而实现让大模型更好地执行真实世界任务进而服务人类的目标。

工作职责：
1. 挖掘大模型弱点，持续快速构建覆盖各项模型能力的评测数据集，探索可靠、具有可扩展性的评测方案。
2. 参与LLM-as-a-Judge 方案构建，训练LLM Judge/Reward Model，建模人类偏好并提升长尾任务的评价准确性。
3. 参与Reward System 构建，设计Reward Signal、合成对应数据，并通过 RL 提升模型的能力上限。
4. 参与开发Evaluation、Reward System 所需工程框架，简化各类测试任务和模型集成流程，帮助提高团队效率。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

大模型+

SFT+

Python+

PyTorch+

深度学习+

还有更多 •••

登录查看完整学习资料

相关职位

基础模型算法工程师 - VLM Post-training

社招1-3年大模型

岗位定位：本岗位侧重于构建大模型的“视觉与感知”能力。小红书拥有业界最独特的图文与短视频 UGC 数据生态，你将负责 VLM 的 Post-training，让模型深度理解，支撑小红书所有业务场景，包括且不限于搜索、广告、推荐、电商、客服及智能发布等核心场景。你的工作内容：负责 VLM 的 SFT/RL/Post-training 流程，提升图文、视频与文本之间的语义对齐和指令遵循能力；构建视觉 Reasoning 能力，提升模型在复杂图文理解、视频时序理解、多图推理、空间关系推理等任务上的表现；研发多模态 Agent 能力，使模型能够进行任务分解、计划生成、工具调用、结果验证和自我修正；建设 VLM Tool-use 能力，支持搜索、知识库、商品库、OCR、ASR、视频分析、审核规则等内部工具调用；优化长视频理解和多帧推理能力，提升模型对视频内容、事件、时序关系和深层语义的理解效率；面向小红书搜索、推荐、广告、电商、审核和内容创作等业务场景，构建数据、训练、评测和上线闭环。

更新于 2026-07-07北京|上海

基础模型算法工程师 - LLM Post-training

社招1-3年大模型

岗位定位：本岗位侧重于提升大语言模型的“核心大脑”能力。你将通过先进的 Post-training 技术，让模型在Reasoning、Agentic以及人类意图对齐上达到业界顶尖水平，通过提升AI智能水平的上限，支撑小红书所有业务场景，包括且不限于搜索、广告、推荐、电商、客服及智能发布等核心场景。你的工作内容：大规模对齐与强化学习：研发并优化 SFT、RL（如GRPO 等）算法，构建高精度的 Reward Model，解决模型在复杂指令下的对齐问题。推理模型（Reasoning）优化：探索长链推理（CoT）、强化学习驱动的自反思与自进化机制，提升模型在的 System 2 思维能力。 Agentic RL 与Agency：研发面向 Search Agent、Code Agent 和 Tool-use Agent 的强化学习方案，提升模型在开放环境中的任务拆解、工具调用及闭环执行能力。合成数据与模型进化：探索高质量合成数据的生成与过滤技术，实现模型能力的自我循环与持续进化

更新于 2026-07-07北京|上海|杭州

基础模型算法研究员

社招算法研究

我们是一家AI上市公司研究院下语言与推理部门的量化智能团队，目标是将数学量化分析与深度研究融合，构建面向高价值领域的Super-intelligence智能体。现招基础模型算法研究员和工程师，方向包括AI for Data Science， AI for Optimization和AI for Financial Analysis，工作内容贯穿数据合成链路、模型后训练和智能体强化学习的全栈。

更新于 2026-02-03北京|深圳

基础模型算法实习生 - LLM Post-training

实习大模型

岗位定位：本岗位侧重于提升大语言模型的“核心大脑”能力。你将通过先进的 Post-training 技术，让模型在Reasoning、Agentic以及人类意图对齐上达到业界顶尖水平，通过提升AI智能水平的上限，支撑小红书所有业务场景，包括且不限于搜索、广告、推荐、电商、客服及智能发布等核心场景。你的工作内容大规模对齐与强化学习：研发并优化 SFT、RL（如GRPO 等）算法，构建高精度的 Reward Model，解决模型在复杂指令下的对齐问题。推理模型（Reasoning）优化：探索长链推理（CoT）、强化学习驱动的自反思与自进化机制，提升模型在的 System 2 思维能力。 Agentic RL 与Agency：研发面向 Search Agent、Code Agent 和 Tool-use Agent 的强化学习方案，提升模型在开放环境中的任务拆解、工具调用及闭环执行能力。合成数据与模型进化：探索高质量合成数据的生成与过滤技术，实现模型能力的自我循环与持续进化。

更新于 2026-06-10北京|上海