logo of tongyi

通义通义实验室-大模型预训练算法工程师-Qwen

社招全职1年以上技术类-算法地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 计算机科学、人工智能、机器学习能等领域的博士/硕士毕业生。
2. 对上述研究方向的某一项或者几项有完整的研究经历或者实际的工业界落地经验。
3. 关注技术影响力,具有开源开放精神,对基础模型的前沿问题有持续热情,有追求,务实,渴望做出有极大影响力的工作。
4. 具备独立思考能力和系统性研究思维,具备较强的动手能力,敢于挑战现有范式,能够独立应用技术解决复…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。
我们期望打造世界一流的预训练 LLM 基座,开发涵盖参数量从几百M到T级的基座模型,并将作为 Qwen / QwenVL / Qwen-Omni / Qwen-Coder 等系列模型的基座。我们追求将现有的预训练技术做到极致,并积极探索下一代的预训练技术。

工作职责:
1. 预训练数据:大规模预训练数据合成技术探索、STEM & reasoning 优化、长尾知识优化、精品数据挖掘过滤、自然数据 scaling、长文本优化、面向 test-time scaling 的数据优化。
2. 预训练策略:新型预训练损失函数探索、遗忘对抗与持续学习、optimizer 优化、lr scheduler 优化、课程学习、scaling law 预测、超参优化。
3. 模型结构:新型模型结构探索、模型可解释性、MoE 优化、参数扩展与裁剪蒸馏、线性注意力、动态稀疏注意力、draft model 优化、动态计算优化、KV cache压缩、长序列优化、decoding 加速等。
包括英文材料
机器学习+
大模型+
Triton Inference Server+
CUDA+
还有更多 •••
相关职位

logo of tongyi
社招1年以上技术类-算法

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 我们期望打造世界一流的预训练 LLM 基座,开发涵盖参数量从几百M到T级的基座模型,并将作为 Qwen / QwenVL / Qwen-Omni / Qwen-Coder 等系列模型的基座。我们追求将现有的预训练技术做到极致,并积极探索下一代的预训练技术。 工作职责: 1. 预训练数据:大规模预训练数据合成技术探索、STEM & reasoning 优化、长尾知识优化、精品数据挖掘过滤、自然数据 scaling、长文本优化、面向 test-time scaling 的数据优化。 2. 预训练策略:新型预训练损失函数探索、遗忘对抗与持续学习、optimizer 优化、lr scheduler 优化、课程学习、scaling law 预测、超参优化。 3. 模型结构:新型模型结构探索、模型可解释性、MoE 优化、参数扩展与裁剪蒸馏、线性注意力、动态稀疏注意力、draft model 优化、动态计算优化、KV cache压缩、长序列优化、decoding 加速等。

更新于 2026-01-20北京|杭州|上海
logo of baidu
校招AIDU项目

-建设在重点应用场景效果领先的VL视觉理解大模型-研究持续预训练(CPT)及退火训练技术,垂直领域基座模型; -研究垂直领域的奖励规则和奖励模型,通过强化学习后训练,提升基座模型的领域知识推理能力; -研究前沿的文本/多模态模型架构与高效的训练推理技术,在先进模型结构、对齐训练算法、强化学习、推理时scaling、高效奖励模型设计、视觉推理、机制解释等方向深入研究并产出有影响力的结果。

更新于 2025-05-19北京
logo of bytedance
社招A253368

1、多模态大模型算法研发:构建电商领域的多模态大模型底座,融合电商的知识,快速落地电商业务,例如:沉淀电商大模型预训练链路,研发电商图文或者视频多模态大模型和相关应用链路; 2、基础算法研发:持续建设和深耕CV/多模态基础预训练算法,例如:沉淀&优化电商场景的预训练模型,基于电商图片/视频自监督,适配电商商品的多模态表征学习等; 3、梳理&沉淀算法库,抽象算法接口,最大化提高算法/预训练模型的复用率,同时优化数据采集&模型训练&部署&推理的流程,提升研发效率; 4、技术输出:定期分享SOTA模型,赋能电商甚至公司级别的业务BU,沉淀专利和论文。

更新于 2024-05-10北京
logo of bytedance
社招A179139

1、多模态大模型算法研发:构建电商领域的多模态大模型底座,融合电商的知识,快速落地电商业务,例如:沉淀电商大模型预训练链路,研发电商图文或者视频多模态大模型和相关应用链路; 2、基础算法研发:持续建设和深耕CV/多模态基础预训练算法,例如:沉淀&优化电商场景的预训练模型,基于电商图片/视频自监督,适配电商商品的多模态表征学习等; 3、梳理&沉淀算法库,抽象算法接口,最大化提高算法/预训练模型的复用率,同时优化数据采集&模型训练&部署&推理的流程,提升研发效率; 4、技术输出:定期分享SOTA模型,赋能电商甚至公司级别的业务BU,沉淀专利和论文。

更新于 2024-05-10上海