通义通义实验室-算法专家-Qwen基座音乐生成

社招全职3年以上技术类-算法2025-12-04地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

职位要求：
1. 计算机科学、语音交互、人工智能、机器学习等领域的博士/硕士毕业生。
2. 必须具备实际的 AI 音乐生成项目经验（如旋律生成、伴奏合成、歌声合成、音色建模、MusicLM 类模型训练等），有完整项目落地、上线或开源者优先；
3. 熟练掌握 Python、PyTorch/TensorFlow，熟悉音频处理工具链（librosa、torchaudio、audiocraft 等）；
4. 对 Transformer、扩散模型、自回归模型、音频编解码器（如 EnCodec、SoundStream）有深入理解；
5. 具备良好的工程实现…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

团队介绍
通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。

团队致力于追逐实现 Omni 基座模型，实现多模态理解与多模态生成一体化。在此之中，语音理解与语音生成是极其重要的技术，影响着下一代 AI 的交互形式，同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用，代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员，包括但不限于 ASR, TTS, S2TT，TTS, Zero-Shot TTS, Music/Song Generation， 同时也欢迎擅长音频交互的工程师，负责基座模型的开源与落地应用，支持开发实时交互系统。

职位描述:
 参与Qwen3-Music项目研究以及开源，构建世界级的影响力项目。 团队致力于打造全球最具影响力的音频模型，曾先后推出Qwen-Audio, Qwen-Omni, Qwen-TTS, Qwen-ASR等系列模型。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

Python+

PyTorch+

TensorFlow+

Transformer+

GitHub+

还有更多 •••

登录查看完整学习资料

相关职位

通义实验室-VLA算法专家-通义千问

社招3年以上技术类-算法

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从亿级到万亿级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。在此基础上，我们致力于研究Qwen面向具身智能领域的下一代基础模型，将Qwen强大的认知与推理能力赋予物理世界的机器人智能体，打破数字世界与物理世界的壁垒。团队的目标是研发能够理解人类意图、感知物理环境、并自主规划执行复杂任务的通用具身基础模型。我们相信，通过融合前沿的多模态大模型与机器人技术，我们将开创通用人工智能的下一个篇章，让AI真正走进并服务于现实生活。工作职责： 1. 具身基础模型研究：构建面向机器人的多模态基础模型，将视觉语言模型与机器人中心的物理世界理解与决策深度融合，构建具身领域的高质量的大规模真实与仿真数据集，设计并训练支持感知、动作、记忆、规划与语言理解统一的具身基础模型。 2. 测评基准建立：构建面向机器人多模态基础模型的能力基准，设计有效的测试基准，持续构建能反映基础模型在物理世界真实能力的高效测评系统。 3. 软硬件系统整合部署：构建机器人软硬件一体化系统，将算法部署在真实机器人平台（如机械臂、人形机器人）上，进行端到端的验证与迭代，推动研究成果的实际落地。

更新于 2026-01-13杭州

集团安全部-网络安全大模型算法专家-北京/杭州

社招3年以上

1. 参与面向网络安全领域的垂直大模型基座建设，包括模型架构优化、训练策略制定与性能优化； 2. 负责高质量安全数据的构建，涵盖代码漏洞检测与修复、程序逆向与分析、安全领域工具（包括但不限于Fuzz、反编译、漏扫等）等多样化安全数据的加工处理和合成优化； 3. 开展大模型全流程训练工作，包括预训练、SFT、GRPO及安全工具结合的Agentic RL； 4. 针对经典且依赖安全专家经验的的安全任务（如渗透测试、二进制代码分析、红蓝对抗策略生成、项目级代码漏洞发现与修复等）优化模型能力，提升其在真实攻防场景中的模型性能与鲁棒性； 5. 探索大模型在代码安全、漏洞挖掘、逆向工程等方向的应用，并推动技术成果落地与学术发表。

更新于 2026-04-07北京|杭州

智驾算法工程师/专家（VLA.VLM方向）-【自动驾驶】

社招算法

工作职责： 1. 基于Vision Language Model（VLM）和Large Language Model（LLM），设计和实现自动驾驶中面向行为预测和运动规划的基座模型； 2. 参与基座模型的预训练、后训练（SFT + RL），提升基座模型的行为预测和运动规划能力； 3. 针对车端/云端部署，开展模型算法层面的性能优化工作，例如压缩，剪枝，蒸馏，训练/推理加速等，确保模型可用性、系统实时性和资源利用率； 4. 与硬件团队、部署团队和系统团队紧密协作，推动模型部署，以及在仿真和车载平台的落地； 5. 跟踪行业前沿技术，将创新性方案应用于实际项目，推动新技术在产品中的落地。

更新于 2025-12-03北京|广州|上海

阿里国际站/Alibaba.com-多模态大模型算法工程师/专家-Accio-杭州

社招1年以上技术类-算法

Accio是阿里巴巴国际数字商业集团阿里国际站内部孵化的一款战略级AI原生应用产品，也是全球首个B2B AI Search Agent，通过持续探索Agent、LLM、VLM、RL、Memory、Reasoning、AI Search等前沿技术，自研基座、Agent系统以及AI Search系统，实现全球B2B跨境贸易跨越式发展。 1、参与开发和优化新一代多模态原生AI搜索系统，包括但不限于多模态模型训练、跨模态生成与检索、生成式AI搜、多模态Agent等； 2、参与搜索引擎研发，全链路提升搜索效果，包括但不限于多模态理解、query分析、召回、相关性、排序等关键模块的算法设计与优化； 3、参与买家Agent全链路开发与优化，跟踪前沿多模态大模型技术，探索推动开源SOTA模型的产品化落地。

更新于 2026-04-07杭州