
智能互联AI创新事业部-音乐生成算法-未来生活实验室
社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘
任职要求
1. 硕士及以上学历,1年以上音频/音乐生成大模型研发经验(T2M、T2A、语音大模型等均可); 2. 精通音频生成大模型核心算法,有LALM、DiT、Flow-Matching等框架训练调优实操经验; 3. 熟悉音频表征技术,掌握hubert、Best-RQ等自监督表征开发;精通高音质音频解码方案,对音乐音质…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 负责音乐生成大模型算法研发,攻克文本生成音乐、音乐编辑、音色克隆等核心技术; 2. 研发音乐理解大模型,搭建高精度、细粒度音乐内容描述体系; 3. 搭建完善的音乐训练数据集,支撑模型迭代优化; 4. 落地音乐生成大模型至核心业务,保障技术实用化; 5. 跟进行业前沿,维持团队音乐生成技术领先性。
包括英文材料
学历+
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
还有更多 •••
相关职位

社招3年以上技术类-算法
1、研发前沿的音频大模型 (Audio-LLM),实现语音识别 (ASR)、语音合成 (TTS) 与音频理解的端到端融合。 2、优化多语种、情感化及高表现力的语音生成,提升在复杂环境(噪声、多人交谈)下的语义提取鲁棒性。 3、设计并优化多模态音乐生成模型,涵盖风格、韵律、和声、节奏等多维度生成任务。 4、探索音频 Tokenizer 优化,实现音频与 LLM 符号空间的对齐。
更新于 2026-04-08北京|杭州

社招3年以上技术类-算法
1. 多模态理解:负责图文/视频/音频理解相关的算法研发,提升模型对复杂多模态场景的语义分析和推理能力。 2. 多模态生成:开发基于 Diffusion Model 或 Autoregressive 架构的生成算法(如 Text-to-Image, Text-to-Video),优化生成的质量、多样性与可控性。 3. 统一架构:设计并研发多模态大模型理解和生成的统一架构,通过高效Transformer结构、位置编码优化等,实现对图像、视频、文本的深度语义理解与高保真内容生成。
更新于 2026-04-08北京|杭州

社招3年以上
1. 负责研发大规模世界模型,提升模型对真实世界动态变化的建模能力。 2. 研究可规模化的世界模型架构,解决世界模型在长程预测中的物理一致性问题和长期记忆等问题。 3. 构建世界模型数据体系,探索世界模型在参数与数据规模上的 Scaling Laws。 4. 构建可交互的世界模型系统,并推动技术在实际产品中的落地。
更新于 2026-04-07北京|杭州