通义音频基础大模型算法工程师
任职要求
1. 计算机科学、语音交互、人工智能、机器学习等领域的博士/硕士毕业生。 2. 有较强的代码能力,具有丰富的TTS/Codec/流ASR研究经验,具有相关数据处理经验;精通 Python 以及 Pytorch 等深度学习框架;熟悉Transformer架构以及大语言模型基础知识。 3. 善于平衡研究目标及落地实现,具备跨学科视野与协作意识,能够与工程、产品等多学科团队紧密合作,推动研究成果快速落地并产生实际影响力。 4. 关注技术影响力,具有开源开放精神,对基础模型的前沿问题有持续热情,具备独立思考能力和系统性研究思维…
工作职责
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于追逐实现 Omni 基座模型,实现多模态理解与多模态生成一体化。在此之中,语音理解与语音生成是极其重要的技术,影响着下一代 AI 的交互形式,同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用,代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员,包括但不限于 ASR, TTS, S2TT,TTS, Zero-Shot TTS, Music/Song Generation, 同时也欢迎擅长音频交互的工程师,负责基座模型的开源与落地应用,支持开发实时交互系统。 工作职责: 1. 单人/多说话人语音识别。 2. 语音合成与高质量音频合成。 3. 音频前端与音色转换。 4. 音色克隆(Zero-Shot TTS)。 5. 音乐生成 / 歌声生成。 6. 理解指令遵循能力提升与推理,包括 SFT, GRPO 等。 7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。
1. 负责多模态大模型(涵盖图像、视频、音频、文本等模态)在内容安全、活体检测、人脸识别、内容理解等场景的算法研发与性能优化; 2. 探索和实现图像、视频、文本等多模态数据的统一建模与高效表征学习,提升模型在内容审核、短视频内容理解等任务中的泛化性和鲁棒性; 3. 紧密跟进与研究业界领先的大模型技术,如InternVL3、Qwen2.5-VL等,探索并落地其在图文审核、视频内容审核、身份核验等业务场景中的应用策略及精调方法; 4. 负责构建并持续优化模型训练及推理系统,显著提升多模态模型在安全审核领域的准确率、召回率与实时响应性能; 5. 探索并实现文本生成图像技术在内容生成与审核中的应用,提升系统的生成与理解能力; 6. 与产品、工程等相关团队密切合作,推动多模态审核、识别系统的业务落地,实现业务场景的闭环验证与持续迭代优化。
1. 负责多模态数据(如文本、图像、音频、视频等)的采集、预处理,及模型设计、开发与优化,构建适合医疗领域的多模态大模型。 2. 研究并实现跨模态信息融合的算法和技术,提升模型在健康内容/服务业务场景中的理解和生成能力。 3. 跟踪多模态深度学习的最新研究进展,探索和落地前沿技术(如预训练、自监督学习、小样本学习等)。 4. 与产品和工程团队紧密合作,推动多模态技术在搜索、推荐、广告等领域的全链路落地应用。 5. 分析和解决在多模态数据处理过程中遇到的技术难题,持续提升模型的智能化水平和商业价值。
-负责多模态数据(如文本、图像、音频、视频等)的采集、预处理,及模型设计、开发与优化,构建适合医疗领域的多模态大模型 -研究并实现跨模态信息融合的算法和技术,提升模型在健康内容/服务业务场景中的理解和生成能力 -跟踪多模态深度学习的最新研究进展,探索和落地前沿技术(如预训练、自监督学习、小样本学习等) - 与产品和工程团队紧密合作,推动多模态技术在搜索、推荐、广告等领域的全链路落地应用 -分析和解决在多模态数据处理过程中遇到的技术难题,持续提升模型的智能化水平和商业价值