通义通义实验室-大模型评估系统算法工程师-Qwen

社招全职1年以上技术类-算法2026-04-02地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1. 学历与计算机、机器学习等方向相关，博士及硕士优先。
2. 了解 LLM Evaluation（评测方案与评测数据构建）或具有 Post-training（SFT、RL等）训练和数据合成经验。
3. 精通 Python 以及 Pytorch 等深度学习框架。
4.…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。
模型评估的方法决定了我们训练什么样的大模型，构建AGI模型的第一步应当是思考我们如何评测模型。随着技术的快速发展，传统的评测逐渐不适应当前的模型能力，我们需要研发下一代大模型评估系统，从而实现让大模型更好地执行真实世界任务进而服务人类的目标。

工作职责：
1. 挖掘大模型弱点，持续快速构建覆盖各项模型能力的评测数据集，探索可靠、具有可扩展性的评测方案。
2. 参与 LLM-as-a-Judge 方案构建，训练 LLM Judge / Reward Model，建模人类偏好并提升长尾任务的评价准确性。
3. 参与 Reward System 构建，设计 Reward Signal、合成对应数据，并通过 RL提升模型的能力上限。
4. 参与开发 Evaluation、Reward System 所需工程框架，简化各类测试任务和模型集成流程，帮助提高团队效率。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

机器学习+

大模型+

SFT+

Python+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

通义实验室-大模型评估系统算法工程师-Qwen

社招1年以上技术类-算法

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。模型评估的方法决定了我们训练什么样的大模型，构建AGI模型的第一步应当是思考我们如何评测模型。随着技术的快速发展，传统的评测逐渐不适应当前的模型能力，我们需要研发下一代大模型评估系统，从而实现让大模型更好地执行真实世界任务进而服务人类的目标。工作职责： 1. 挖掘大模型弱点，持续快速构建覆盖各项模型能力的评测数据集，探索可靠、具有可扩展性的评测方案。 2. 参与 LLM-as-a-Judge 方案构建，训练 LLM Judge / Reward Model，建模人类偏好并提升长尾任务的评价准确性。 3. 参与 Reward System 构建，设计 Reward Signal、合成对应数据，并通过 RL提升模型的能力上限。 4. 参与开发 Evaluation、Reward System 所需工程框架，简化各类测试任务和模型集成流程，帮助提高团队效率。

更新于 2026-04-02北京|杭州|上海

游戏AI算法工程师-【游戏事业部】

社招J0011

业务场景：探索大语言模型技术在游戏内容生产、AI游戏与智能NPC场景的落地应用，研发垂直领域的LLMs，为游戏业务提供智能化的内容生产能力，提高游戏资产制作效率。相关工作： 1、LLMs微调技术框架开发：负责LLMs模型的研究与开发，基础模型训练，监督微调和强化训练，包括但不限于模型选型，数据处理，效果评估和优化，形成一套完整的链路，用LLMs构建垂类场景中模型基座，提升效果的可靠性和一致性； 2、LLMs系统应用研发：基于业务需求与业务数据，与产品，策划，服务端同事一起将LLMs的能力应用于游戏NPC智能对话交互，肢体动作生成，游戏剧情/动画生产等，能够主导模型的研发，训练数据处理与模型的工程化部署整体环节； 3、AI助力游戏方面的探索，包括不限于：AIGC，AI辅助工具开发等。

更新于 2025-07-21杭州

大模型推理服务(MaaS)研发工程师/专家

社招引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品，通过标准化API接口提供LLM/MLLM等大模型推理服务，致力于为AI应用开发者提供品类丰富、数量众多的模型选择，并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务，各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。核心职责 1. 参与小红书万亿级Token量推理系统构建，包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向，共同打造国内领先的大模型MaaS服务； 2. 探索负载感知的推理系统流量调度算法，如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等，持续提升MaaS系统的稳定性、成本效益； 3. 探索并跟进业界开源SOTA模型，如Qwen系列、DeepSeek系列，多维度评估模型效果并建立相关的准入体系，及时上架到MaaS系统； 4. 参与MaaS系统的国产卡适配与异构算力统一调度体系，如华为910C、阿里PPU、昆仑芯P800； 5. 参与攻克大规模分布式推理系统带来的复杂挑战，通过弹性调度、容量规划、链路压测等手段提升系统健壮性，确保平台能够弹性扩展，支撑业务的飞速增长。

更新于 2026-03-20北京|上海

大模型应用和智能体技术算法工程师

社招2年以上核心本地商业-基

美团基础研发平台，作为公司的核心技术平台，致力于“零售+科技”的战略发展。我们专注于智能体构建、大模型推理、多模态训练等核心技术，并通过FRIDAY模型工厂与应用工厂，为业务提供稳定、安全、易扩展与技术先进的平台技术和技术能力。我们聚焦于大模型和智能体的前沿算法研究和应用落地，致力于将先进的人工智能技术转化为实际的业务价值。我们真诚邀请你加入我们，共同推动技术发展，创造行业价值。 1. 负责大模型在业务场景下关键能力的应用研发，包括但不限于知识和指令遵循、分析诊断、深度推理、反思和评估等能力的优化和落地。 2. 深入研究并优化大模型在长文本理解、生成方面的效果和性能，推动相关技术在实际业务中的应用。 3. 研发和优化智能体的function call、多智能体间协调，使其能够高效、准确地调用内部和外部工具，扩展智能体的应用边界。 4. 结合自主Agent的理念，探索和优化模型的能力边界，推动模型在复杂任务上的表现。 5. 与工程团队紧密合作，推动算法模型的工程化落地，包括模型压缩、加速、部署和监控等环节。 6. 跟踪业界前沿技术，结合业务需求进行预研和技术储备，保持团队的技术竞争力。

更新于 2025-06-22北京|上海