logo of xiaohongshu

小红书多模态算法工程师-语音方向

社招全职大模型地点:北京 | 上海状态:招聘

任职要求


良好的 pytorch / python 技术栈,具备熟练的阅读代码和编写代码的能力。
在语音领域(包括但不限于 TTS/ASR)有深入和一线的实践经验,具备有深度的理解和认知;
科学的研发习惯;具备良好的问题定义能力;对细节敏感

工作职责


在算力驱动的 AGI 和人文精神的烟火气交汇之处,我们真诚邀请对大模型 Omni Model 有热情的同学加入,共同打造更具影响力的智能系统。你会成为团队的一员,并和其他同事协作,共同研发 SOTA 的 Omni Model。期待你以务实和客观的科学态度来推进技术的进展,不被过往经验裹挟、不被主观偏好影响。期待你除了算法外仍然是为出色的工程师。期待你对技术有强烈的好奇心和开放心态。
区别于传统 ASR / TTS 级联技术,我们希望打造端到端的 Omni Model 在实时交互中释放大模型的智力水平,彻底改变以 Chatbot 文字为主的人机交互界面
岗位说明:你会负责围绕大模型 Omni Model 构建语音模态的相关研究工作,包括但不限于如下事项
海量的语音数据处理和构建:定性分析、定量评估数据质量,并给出 scalable 的改进方案;探索跨模态(文字/视觉/语音)混合训练的最佳实践;
探索更加高效且合理的模型架构,让模型更加理解音频,同时让模型具备更好的语音合成能力
研究并探索基于 Omni Model 的 Post Train,包含但不限于 SFT 和 RL
包括英文材料
PyTorch+
Python+
相关职位

logo of nio
实习算法

1. 参与多模态大模型语音方向的研发工作,包括但不限于语音识别、音频理解、声音事件检测、语音端到端对话等 2. 负责多模态大模型前沿算法的探索 3. 负责多模态大模型相关数据的清洗、扩增,提升数据质量 4. 参与多模态大模型的训练、优化和测试,提升模型的性能和稳定性 5. 协助团队完成相关项目的开发和落地,实现技术成果的转化

更新于 2025-07-02
logo of meituan
实习核心本地商业-基

负责语音识别/语音合成/声纹识别等技术方向的算法研究和开发工作,负责将前沿语音算法落地到美团业务场景并取得应用效果。

更新于 2025-02-26
logo of bytedance
社招A196220

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与研发多模态模型等下一代人工智能核心技术; 2、关注和推进技术在业务场景中的广泛应用,包括但不限于语言、音乐、语音、音频的生成与理解等; 3、深入调研和关注音频/NLP/多模态等方向的前沿技术。

更新于 2024-05-11
logo of bytedance
社招A193197

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与研发多模态模型等下一代人工智能核心技术; 2、关注和推进技术在业务场景中的广泛应用,包括但不限于语言、音乐、语音、音频的生成与理解等; 3、深入调研和关注音频/NLP/多模态等方向的前沿技术。

更新于 2024-11-25