通义通义实验室-算法专家-Qwen基座音乐生成
任职要求
职位要求: 1. 计算机科学、语音交互、人工智能、机器学习等领域的博士/硕士毕业生。 2. 必须具备实际的 AI 音乐生成项目经验(如旋律生成、伴奏合成、歌声合成、音色建模、MusicLM 类模型训练等),有完整项目落地、上线或开源者优先; 3. 熟练掌握 Python、PyTorch/TensorFlow,熟悉音频处理工具链(librosa、torchaudio、audiocraft 等); 4. 对 Transformer、扩散模型、自回归模型、音频编解码器(如 EnCodec、SoundStream)有深入理解; 5. 具备良好的工程实现…
工作职责
团队介绍 通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于追逐实现 Omni 基座模型,实现多模态理解与多模态生成一体化。在此之中,语音理解与语音生成是极其重要的技术,影响着下一代 AI 的交互形式,同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用,代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员,包括但不限于 ASR, TTS, S2TT,TTS, Zero-Shot TTS, Music/Song Generation, 同时也欢迎擅长音频交互的工程师,负责基座模型的开源与落地应用,支持开发实时交互系统。 职位描述: 参与Qwen3-Music项目研究以及开源,构建世界级的影响力项目。 团队致力于打造全球最具影响力的音频模型,曾先后推出Qwen-Audio, Qwen-Omni, Qwen-TTS, Qwen-ASR等系列模型。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 在此基础上,我们致力于研究Qwen面向具身智能领域的下一代基础模型,将Qwen强大的认知与推理能力赋予物理世界的机器人智能体,打破数字世界与物理世界的壁垒。团队的目标是研发能够理解人类意图、感知物理环境、并自主规划执行复杂任务的通用具身基础模型。我们相信,通过融合前沿的多模态大模型与机器人技术,我们将开创通用人工智能的下一个篇章,让AI真正走进并服务于现实生活。 工作职责: 1. 具身基础模型研究: 构建面向机器人的多模态基础模型,将视觉语言模型与机器人中心的物理世界理解与决策深度融合,构建具身领域的高质量的大规模真实与仿真数据集,设计并训练支持感知、动作、记忆、规划与语言理解统一的具身基础模型。 2. 测评基准建立:构建面向机器人多模态基础模型的能力基准,设计有效的测试基准,持续构建能反映基础模型在物理世界真实能力的高效测评系统。 3. 软硬件系统整合部署: 构建机器人软硬件一体化系统,将算法部署在真实机器人平台(如机械臂、人形机器人)上,进行端到端的验证与迭代,推动研究成果的实际落地。

1. 参与面向网络安全领域的垂直大模型基座建设,包括模型架构优化、训练策略制定与性能优化; 2. 负责高质量安全数据的构建,涵盖代码漏洞检测与修复、程序逆向与分析、安全领域工具(包括但不限于Fuzz、反编译、漏扫等)等多样化安全数据的加工处理和合成优化; 3. 开展大模型全流程训练工作,包括预训练、SFT、GRPO及安全工具结合的Agentic RL; 4. 针对经典且依赖安全专家经验的的安全任务(如渗透测试、二进制代码分析、红蓝对抗策略生成、项目级代码漏洞发现与修复等)优化模型能力,提升其在真实攻防场景中的模型性能与鲁棒性; 5. 探索大模型在代码安全、漏洞挖掘、逆向工程等方向的应用,并推动技术成果落地与学术发表。

工作职责: 1. 基于Vision Language Model(VLM)和Large Language Model(LLM),设计和实现自动驾驶中面向行为预测和运动规划的基座模型; 2. 参与基座模型的预训练、后训练(SFT + RL),提升基座模型的行为预测和运动规划能力; 3. 针对车端/云端部署,开展模型算法层面的性能优化工作,例如压缩,剪枝,蒸馏,训练/推理加速等,确保模型可用性、系统实时性和资源利用率; 4. 与硬件团队、部署团队和系统团队紧密协作,推动模型部署,以及在仿真和车载平台的落地; 5. 跟踪行业前沿技术,将创新性方案应用于实际项目,推动新技术在产品中的落地。
Accio是阿里巴巴国际数字商业集团阿里国际站内部孵化的一款战略级AI原生应用产品,也是全球首个B2B AI Search Agent,通过持续探索Agent、LLM、VLM、RL、Memory、Reasoning、AI Search等前沿技术,自研基座、Agent系统以及AI Search系统,实现全球B2B跨境贸易跨越式发展。 1、参与开发和优化新一代多模态原生AI搜索系统,包括但不限于多模态模型训练、跨模态生成与检索、生成式AI搜、多模态Agent等; 2、参与搜索引擎研发,全链路提升搜索效果,包括但不限于多模态理解、query分析、召回、相关性、排序等关键模块的算法设计与优化; 3、参与买家Agent全链路开发与优化,跟踪前沿多模态大模型技术,探索推动开源SOTA模型的产品化落地。