logo of wondershare

万兴科技音频大模型算法工程师

社招全职地点:长沙状态:招聘

任职要求


任职资格:1、硕士及以上,计算机、通信、信号处理等相关专业;2、熟悉数字信号处理相关理论,擅长对算法实现和优化;3、有音频编解码器或音频信号处理,多媒体通信等相关开发经验;4、数字信号处理基础扎实,有直接音效和音频分析开发经验优先 ;5、熟悉VLC、FFMPEG或Android/iOS 多媒体播放架构优先;6、有声音3A算法经验者优先。

工作职责


岗位职责:1、负责音视频产品音频技术开发,算法实现和优化;2、移动平台、跨平台代码移植和算法优化;3、音频前后处理算法如噪声抑制(NS)、增益控制(AGC)、人声增强、回音消除(AEC)等;4、大规模语音及歌声素材的分析处理;5、AI音乐生成、声音克隆等前沿技术开发和预研。
包括英文材料
算法+
Android+
iOS+
相关职位

logo of ximalaya
实习

岗位职责: 1. 参与⾳频理解的算法调研、落地应⽤、效果调优; 2. 负责⾳频理解技术在业务场景的适配和落地; 3. 将合适的⼯作成果最终形成论⽂发表;

更新于 2025-01-06
logo of tongyi
校招通义2026届秋

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于追逐实现 Omni 基座模型,实现多模态理解与多模态生成一体化。在此之中,语音理解与语音生成是极其重要的技术,影响着下一代 AI 的交互形式,同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用,代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员,包括但不限于 ASR, TTS, S2TT,TTS, Zero-Shot TTS, Music/Song Generation, 同时也欢迎擅长音频交互的工程师,负责基座模型的开源与落地应用,支持开发实时交互系统。 工作职责: 1. 单人/多说话人语音识别。 2. 语音合成与高质量音频合成。 3. 音频前端与音色转换。 4. 音色克隆(Zero-Shot TTS)。 5. 音乐生成 / 歌声生成。 6. 理解指令遵循能力提升与推理,包括 SFT, GRPO 等。 7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。

更新于 2025-08-07
logo of mi
校招

1. 聚焦语音/音频生成大模型技术研究,涵盖多模态融合,提升长序列建模能力与实时性; 2. 研发风格与情感可控技术,构建语义-时序-声学等多级可控接口,支持音色迁移与交互式编辑; 3. 落地助手、无障碍等小米应用场景,发表顶会论文一篇以上,申请专利两项以上。 【课题名称】 语音生成大模型研究与应用 【课题内容】 研究语音或音频生成与编辑大模型相关技术,优化生成效果及可控性,平衡效率与效果,探索前沿的声音生成技术方案等。

更新于 2025-06-25
logo of tme
实习技术类

1. 负责QQ音乐/长音频有声书中语音合成相关工作,应用场景包括QQ音乐中的播客解读、AI助手、AI伴听、AI互动聊天等场景,以及QQ音乐电台/懒人听书等长音频平台中AI有声书生产、声播AIGC制作工具等落地场景; 2. 负责最前沿的语音合成大模型的模型训练,算法优化,推理提速,业务上线等工作; 3. 负责音频理解大模型; 4. 负责全双工通信语音大模型的算法研究和实现。

更新于 2025-07-14