logo of tongyi

通义通义实验室-算法专家-Qwen基座音乐生成

社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


职位要求:
1. 计算机科学、语音交互、人工智能、机器学习等领域的博士/硕士毕业生。
2. 必须具备实际的 AI 音乐生成项目经验(如旋律生成、伴奏合成、歌声合成、音色建模、MusicLM 类模型训练等),有完整项目落地、上线或开源者优先;
3. 熟练掌握 PythonPyTorch/TensorFlow,熟悉音频处理工具链(librosa、torchaudio、audiocraft 等);
4. 对 Transformer、扩散模型、自回归模型、音频编解码器(如 EnCodec、SoundStream)有深入理解;
5. 具备良好的工程实现…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。

团队致力于追逐实现 Omni 基座模型,实现多模态理解与多模态生成一体化。在此之中,语音理解与语音生成是极其重要的技术,影响着下一代 AI 的交互形式,同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用,代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员,包括但不限于 ASR, TTS, S2TT,TTS, Zero-Shot TTS, Music/Song Generation, 同时也欢迎擅长音频交互的工程师,负责基座模型的开源与落地应用,支持开发实时交互系统。

职位描述:
 参与Qwen3-Music项目研究以及开源,构建世界级的影响力项目。 团队致力于打造全球最具影响力的音频模型,曾先后推出Qwen-Audio, Qwen-Omni, Qwen-TTS, Qwen-ASR等系列模型。
包括英文材料
机器学习+
Python+
PyTorch+
TensorFlow+
Transformer+
GitHub+
还有更多 •••
相关职位

logo of tongyi
社招3年以上技术类-算法

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 在此基础上,我们致力于研究Qwen面向具身智能领域的下一代基础模型,将Qwen强大的认知与推理能力赋予物理世界的机器人智能体,打破数字世界与物理世界的壁垒。团队的目标是研发能够理解人类意图、感知物理环境、并自主规划执行复杂任务的通用具身基础模型。我们相信,通过融合前沿的多模态大模型与机器人技术,我们将开创通用人工智能的下一个篇章,让AI真正走进并服务于现实生活。 工作职责: 1. 具身基础模型研究: 构建面向机器人的多模态基础模型,将视觉语言模型与机器人中心的物理世界理解与决策深度融合,构建具身领域的高质量的大规模真实与仿真数据集,设计并训练支持感知、动作、记忆、规划与语言理解统一的具身基础模型。 2. 测评基准建立:构建面向机器人多模态基础模型的能力基准,设计有效的测试基准,持续构建能反映基础模型在物理世界真实能力的高效测评系统。 3. 软硬件系统整合部署: 构建机器人软硬件一体化系统,将算法部署在真实机器人平台(如机械臂、人形机器人)上,进行端到端的验证与迭代,推动研究成果的实际落地。

更新于 2026-01-13杭州
logo of hello
社招算法

工作职责: 1. 基于Vision Language Model(VLM)和Large Language Model(LLM),设计和实现自动驾驶中面向行为预测和运动规划的基座模型; 2. 参与基座模型的预训练、后训练(SFT + RL),提升基座模型的行为预测和运动规划能力; 3. 针对车端/云端部署,开展模型算法层面的性能优化工作,例如压缩,剪枝,蒸馏,训练/推理加速等,确保模型可用性、系统实时性和资源利用率; 4. 与硬件团队、部署团队和系统团队紧密协作,推动模型部署,以及在仿真和车载平台的落地; 5. 跟踪行业前沿技术,将创新性方案应用于实际项目,推动新技术在产品中的落地。

更新于 2025-12-03北京|广州|上海
logo of tongyi
校招通义2026届秋

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 Coder团队致力于构建能够执行、扩展并自我进化的自主系统,通过构建超智能的coding agent/digital agent,扩展数字世界,为迈向真实世界的智能奠定基础。 工作职责: 1. 负责通用模型 Qwen 的代码能力和代码专有模型 Qwen-Coder 的构建。 (1)包括但不限于数据收集、预训练、后训练(强化学习)、评测等方向上的探索。 (2)通过Large-scale Pre-training 和 Large-scaleRL来提升Code Reasoning能力,在专家级编程竞赛超越人类,并构建 Coding Agent 来解决真实世界软件开发任务; 2. 负责Computer-Use Agent (GUI-Agent)的建设,以最直观的方式—鼠标、键盘、编码等操作来代替人类执行数字世界任务。 (1)通过Scaling海量数字世界数据结合大规模合成数据,来提升Computer-Use Agent的Grouding能力。 (2)通过Long Horizon的方式进行强化训练,结合可扩展的多模态环境反馈来提升CU Agent的Reasoning的能力。

更新于 2025-08-22北京|杭州|上海
logo of amap
社招3年以上技术类-算法

这个世界的运行机制是否是可计算的?世界的复杂性是否唯有用AI的复杂性来应对?人类是否可以造出一台机器让未来就像过去一样历历在目?面对这些未知而又迷人的世界级难题,阿里巴巴旗下高德地图将组建一支卓越的AI队伍向世界模型发起冲击。在这里,你将获得无限制的算力,让想象力在算力的加持下尽情驰骋;在这里,你将和顶级的空间智能专家并肩作战,让专业与专注碰撞出世界模型最精彩的火花;在这里,你将接触到高德积累了20年的海量真实世界数据,让包罗万象的数据发挥它本来应有的价值。 一、团队介绍 我们是阿里巴巴旗下高德视觉技术中心的具身世界模型团队。这里有自由探索、开放交流的技术氛围,让每个有价值的idea都得到充分的展现和验证。这里有来自国内外顶尖院校毕业的研究员,知名AI项目/论文的作者可能就坐在你身边,让顶尖智力一起碰撞出最美妙的火花。我们是一支兼具学术界和产业界视角的团队,仰望星空,脚踏实地。 团队gihub主页:https://github.com/amap-cvlab 二、我们要去哪? 1、打造可交互、可控制、物理一致的世界模型,突破空间智能技术边界 2、通过世界模型加速物理智能体的进化 3、探索下一代时空基座模型 三、岗位职责: 1. 3D动/静态生产: 利用三维重建、生成模型、多模态大模型对单图、视频完成动态物体/静态场景重建、生成、编辑,并得到可交互的3D资产与长时序视频; 2. 结合3D表征的视频生成: 研发基于动作、轨迹等条件控制的视频生成算法,确保生成内容具备严格的3D几何一致性与物理规律遵循,实现对场景视角、物体交互的精细化控制,为具身智能体提供高保真的虚拟训练环境; 3. 空间推理: 赋予模型深度的三维空间理解与物理常识推理能力(如物体可供性、碰撞动力学、场景拓扑),使其能理解场景背后的物理因果,辅助下游的复杂决策与规划; 4. 训练闭环搭建: 构建“生成-仿真-评估-优化”的自动化数据闭环,利用生成数据扩充训练集(Data Augmentation),并通过端到端系统的反馈迭代优化世界模型,实现数据飞轮效应; 5. 世界模型构建: 结合具身智能、自动驾驶等数据探索空间智能的统一范式,完成环境感知、智能体预测、决策规划等任务并得到未来状态和未来传感器信息,为强化学习提供基座; 6. 产线落地与性能优化: 与具身智能、自动驾驶、智能导航等业务协同,完善仿真数据链路,优化模型推理效率与显存占用; 7. 前沿追踪: 跟踪学术界和工业界在生成式AI/世界模型相关领域的最新进展,保持公司在该领域的技术领先地位。

更新于 2025-12-29北京