logo of tongyi

通义基础模型评估系统算法工程师

校招全职通义2026届秋季校园招聘地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 来自全球Top高校计算机科学、人工智能、机器学习深度学习,或相关领域应届毕业生,博士/硕士毕业生优先。
2. 了解 LLM Evaluation(评测方案与评测数据构建)或具有 post-training(SFT、RL等)训练和数据合成经验。
3. 具有较强的代码工程能力,精通 Python 以及 Pytorch深度学习框架;熟悉 Transformer 架构以及大语言模型基础知识。
4. 在国际顶级计算…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。

团队致力于研发下一代大模型评估系统,从而实现让大模型更好地执行真实世界任务进而服务人类的目标。

工作职责:
1. 挖掘大模型弱点,持续快速构建覆盖各项模型能力的评测数据集,探索可靠、具有可扩展性的评测方案。
2. 参与LLM-as-a-Judge 方案构建,训练LLM Judge/Reward Model,建模人类偏好并提升长尾任务的评价准确性。
3. 参与Reward System 构建,设计Reward Signal、合成对应数据,并通过 RL 提升模型的能力上限。
4. 参与开发Evaluation、Reward System 所需工程框架,简化各类测试任务和模型集成流程,帮助提高团队效率。
包括英文材料
机器学习+
大模型+
SFT+
Python+
PyTorch+
深度学习+
还有更多 •••
相关职位

logo of tongyi
社招1年以上技术类-算法

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 模型评估的方法决定了我们训练什么样的大模型,构建AGI模型的第一步应当是思考我们如何评测模型。随着技术的快速发展,传统的评测逐渐不适应当前的模型能力,我们需要研发下一代大模型评估系统,从而实现让大模型更好地执行真实世界任务进而服务人类的目标。 工作职责: 1. 挖掘大模型弱点,持续快速构建覆盖各项模型能力的评测数据集,探索可靠、具有可扩展性的评测方案。 2. 参与 LLM-as-a-Judge 方案构建,训练 LLM Judge / Reward Model,建模人类偏好并提升长尾任务的评价准确性。 3. 参与 Reward System 构建,设计 Reward Signal、合成对应数据,并通过 RL提升模型的能力上限。 4. 参与开发 Evaluation、Reward System 所需工程框架,简化各类测试任务和模型集成流程,帮助提高团队效率。

更新于 2026-04-02北京|杭州|上海
logo of aligenie
社招1年以上技术类-算法

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 模型评估的方法决定了我们训练什么样的大模型,构建AGI模型的第一步应当是思考我们如何评测模型。随着技术的快速发展,传统的评测逐渐不适应当前的模型能力,我们需要研发下一代大模型评估系统,从而实现让大模型更好地执行真实世界任务进而服务人类的目标。 工作职责: 1. 挖掘大模型弱点,持续快速构建覆盖各项模型能力的评测数据集,探索可靠、具有可扩展性的评测方案。 2. 参与 LLM-as-a-Judge 方案构建,训练 LLM Judge / Reward Model,建模人类偏好并提升长尾任务的评价准确性。 3. 参与 Reward System 构建,设计 Reward Signal、合成对应数据,并通过 RL提升模型的能力上限。 4. 参与开发 Evaluation、Reward System 所需工程框架,简化各类测试任务和模型集成流程,帮助提高团队效率。

更新于 2026-04-02北京|杭州|上海
logo of tencent
社招腾讯游戏技术

1.负责动画/物理/图形学/计算机视觉等核心技术在游戏相关领域的研发与产品化等工作,包括但不限于如下方向:动画物理系统构建、动画虚拟形象创建,3D人体动作合成/迁移,角色动作动画生成与渲染,纹理合成与可微渲染,常见游戏资源(模型/材质/贴图/动画/场景布局)的程序化生成等等; 2.负责游戏引擎内相关功能实现,包括算法、工具链、业务实现、引擎扩展等等; 3.负责产品需求的技术可行性评估, 程序框架及技术方案的设计和具体实现; 4.负责跟踪业界前沿技术进展,并且能够快速将其应用到业务中。

更新于 2025-04-03成都
logo of xiaohongshu
社招2年以上机器学习平台

部门介绍: 小红书的AI技术中台目前由AI技术部负责建设,通过标准化的AI技术能力提供支持公司各个业务团队(包括社区,交易,商业化,广告,agi),实现AI能力的共享和复用,提升技术资源的利用率和公司的创新迭代速度,并降低技术成本和稳定性风险。 工作职责: 作为小红书AI技术部 智能调度开发工程师: 1、负责机器学习系统资源智能调度的设计和开发,服务于各方向(搜广推核心场景、LLM场景等)的模型训练、模型评估和模型推理; 2、通过调度技术、引擎技术提升在离线资源分配和利用效率,并提升训练、推理性能,支持公司业务的快速发展。 3、通过对机器学习平台的架构升级和产品迭代,大幅提升算法同学的模型迭代效率。 4、打造具有业界一流水平的机器学习技术,通过开源共建等各类形式,提升团队与个人在业界的影响力。

深圳