logo of mi

小米大模型音频算法工程师

社招全职A18608A地点:北京状态:招聘

任职要求


1. 硕士及以上学历,计算机、人工智能、声学等相关专业;精通主流的音频生成模型框架(如Diffusion, Transformer, VAE等),并对AIGC领域的最新进展有深入的理解;
2. 具备将前沿算法落地到实际产品的完整项目经验,深刻理解模型训练、优化、部署的全链路流程;
3. 在音频/语音AIGC(如音效生成、音乐生成)领域有深入的研发经验;
4. 熟悉以下一项或多项技术并有相关项目经验者优先:
  - 空间音频与沉浸式体验技术(如Dolby Atmos, 3D Audio Rendering)
  - 多扬声器重放技术(如声场控制、模拟声浪等)
5. 在相关领域的顶级学术会议或期刊(如ICASSP, INTERSPEECH, NeurIPS, ICML等)发表过论文者优先;
6. 有高质量开源项目开发和贡献经验者优先。

工作职责


1.聚焦音效(V2A,T2VA,空间音频)生成、编辑、声音分离等大模型技术研究,涵盖多模态融合;
2.探索和落地先进的音频处理与计算声学技术,解决复杂声学场景下的核心挑战。包括但不限于:沉浸式音频渲染、声源分离与增强、声场控制与个性化重放等;
3.落地汽车、手机、音箱等小米应用场景,每年发表顶会论文1-2篇或申请专利2-3项。
包括英文材料
学历+
Transformer+
算法+
NeurIPS+
ICML+
相关职位

logo of baidu
社招MEG

-负责处理产品中音频、视频等内容的安全问题,包括但不限于色情、暴力等违规内容的识别与处理 -基于音频处理技术(如语音识别、声纹识别、音频分类等)和人工智能大模型,开发并落地内容安全检测模型,确保从海量音视频数据中高效识别风险内容 -研发和优化内容风控解决方案,分析违规数据的特点,并为平台提供全面的风控保障 -探索和应用前沿语音算法技术,方向涵盖但不限于语音识别、声纹识别、音频相似性匹配、多模态大模型等 -针对音频文件中的风险内容,深入研究并开发高效的自动化检测算法,提升风控系统的智能化与自动化水平

更新于 2024-11-14
logo of bytedance
社招A230763

1、负责抖音短视频、直播等场景中的音频理解和生成模型能力建设,包括但不限于ASR、TTS、对话大模型、声纹、音乐理解、音频分类等; 2、跟进前沿的音频大模型技术,负责音频基础模型的预训练和后训练,探索全模态模型建模方案; 3、负责音频技术在抖音产品、推荐中的应用和落地,提升抖音短视频、直播的内容供给和分发体验。

更新于 2025-05-23
logo of bytedance
社招A128781

1、负责抖音短视频、直播等场景中的音频理解和生成模型能力建设,包括但不限于ASR、TTS、对话大模型、声纹、音乐理解、音频分类等; 2、跟进前沿的音频大模型技术,负责音频基础模型的预训练和后训练,探索全模态模型建模方案; 3、负责音频技术在抖音产品、推荐中的应用和落地,提升抖音短视频、直播的内容供给和分发体验。

更新于 2025-05-23
logo of bytedance
社招A93949A

1、负责抖音短视频、直播等场景中的音频理解和生成模型能力建设,包括但不限于ASR、TTS、对话大模型、声纹、音乐理解、音频分类等; 2、跟进前沿的音频大模型技术,负责音频基础模型的预训练和后训练,探索全模态模型建模方案; 3、负责音频技术在抖音产品、推荐中的应用和落地,提升抖音短视频、直播的内容供给和分发体验。

更新于 2025-05-23