小米大模型音频算法工程师
社招全职A18608A地点:北京状态:招聘
任职要求
1. 硕士及以上学历,计算机、人工智能、声学等相关专业;精通主流的音频生成模型框架(如Diffusion, Transformer, VAE等),并对AIGC领域的最新进展有深入的理解; 2. 具备将前沿算法落地到实际产品的完整项目经验,深刻理解模型训练、优化、部署的全链路流程; 3. 在音频/语音AIGC(如音效生成、音乐生成)领域有深入的研发经验; 4. 熟悉以下一项或多项技术并有相关项目经验者优先: - 空间音频与沉浸式体验技术(如Dolby Atmos, 3D Audio Rendering) - 多扬声器重放技术(如声场控制、模拟声浪等) 5. 在相关领域的顶级学术会议或期刊(如ICASSP, INTERSPEECH, NeurIPS, ICML等)发表过论文者优先; 6. 有高质量开源项目开发和贡献经验者优先。
工作职责
1.聚焦音效(V2A,T2VA,空间音频)生成、编辑、声音分离等大模型技术研究,涵盖多模态融合; 2.探索和落地先进的音频处理与计算声学技术,解决复杂声学场景下的核心挑战。包括但不限于:沉浸式音频渲染、声源分离与增强、声场控制与个性化重放等; 3.落地汽车、手机、音箱等小米应用场景,每年发表顶会论文1-2篇或申请专利2-3项。
包括英文材料
学历+
Transformer+
https://huggingface.co/learn/llm-course/en/chapter1/4
Breaking down how Large Language Models work, visualizing how data flows through.
https://poloclub.github.io/transformer-explainer/
An interactive visualization tool showing you how transformer models work in large language models (LLM) like GPT.
https://www.youtube.com/watch?v=wjZofJX0v4M
Breaking down how Large Language Models work, visualizing how data flows through.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
NeurIPS+
https://neurips.cc/
ICML+
https://icml.cc/
相关职位
社招MEG
-负责处理产品中音频、视频等内容的安全问题,包括但不限于色情、暴力等违规内容的识别与处理 -基于音频处理技术(如语音识别、声纹识别、音频分类等)和人工智能大模型,开发并落地内容安全检测模型,确保从海量音视频数据中高效识别风险内容 -研发和优化内容风控解决方案,分析违规数据的特点,并为平台提供全面的风控保障 -探索和应用前沿语音算法技术,方向涵盖但不限于语音识别、声纹识别、音频相似性匹配、多模态大模型等 -针对音频文件中的风险内容,深入研究并开发高效的自动化检测算法,提升风控系统的智能化与自动化水平
更新于 2024-11-14
社招A230763
1、负责抖音短视频、直播等场景中的音频理解和生成模型能力建设,包括但不限于ASR、TTS、对话大模型、声纹、音乐理解、音频分类等; 2、跟进前沿的音频大模型技术,负责音频基础模型的预训练和后训练,探索全模态模型建模方案; 3、负责音频技术在抖音产品、推荐中的应用和落地,提升抖音短视频、直播的内容供给和分发体验。
更新于 2025-05-23
社招A128781
1、负责抖音短视频、直播等场景中的音频理解和生成模型能力建设,包括但不限于ASR、TTS、对话大模型、声纹、音乐理解、音频分类等; 2、跟进前沿的音频大模型技术,负责音频基础模型的预训练和后训练,探索全模态模型建模方案; 3、负责音频技术在抖音产品、推荐中的应用和落地,提升抖音短视频、直播的内容供给和分发体验。
更新于 2025-05-23