logo of xiaohongshu

小红书多模态-语音实习生

实习兼职大模型地点:北京 | 上海状态:招聘

任职要求


良好的 pytorch / python 技术栈,具备熟练的阅读代码和编写代码的能力。
在语音领域(包括但不限于 TTS/ASR)有深入和一线的实践经验,具备有深度的理解和认知;
科学的研发习惯;具备良好的问题定义能力;对细节敏感

工作职责


在算力驱动的 AGI 和人文精神的烟火气交汇之处,我们真诚邀请对大模型 Omni Model 有热情的同学加入,共同打造更具影响力的智能系统。你会成为团队的一员,并和其他同事协作,共同研发 SOTA 的 Omni Model。期待你以务实和客观的科学态度来推进技术的进展,不被过往经验裹挟、不被主观偏好影响。期待你除了算法外仍然是为出色的工程师。期待你对技术有强烈的好奇心和开放心态。
区别于传统 ASR / TTS 级联技术,我们希望打造端到端的 Omni Model 在实时交互中释放大模型的智力水平,彻底改变以 Chatbot 文字为主的人机交互界面
岗位说明:你会负责围绕大模型 Omni Model 构建语音模态的相关研究工作,包括但不限于如下事项
海量的语音数据处理和构建:定性分析、定量评估数据质量,并给出 scalable 的改进方案;探索跨模态(文字/视觉/语音)混合训练的最佳实践;
探索更加高效且合理的模型架构,让模型更加理解音频,同时让模型具备更好的语音合成能力
研究并探索基于 Omni Model 的 Post Train,包含但不限于 SFT 和 RL
包括英文材料
PyTorch+
Python+
相关职位

logo of ztgame
实习实习生

1、参与多模态语音理解+生成(speech、audio、music)领域的科研,效果优秀后推动在视频、游戏业务场景下的算法研发、落地,包括但不限于数据处理、模型训练、效果调优; 2、紧跟前沿技术、参与关键技术创新、突破与积累,撰写论文。

更新于 2025-08-13
logo of soul
实习

1. 负责语音合成、语音克隆、双工语音通话等语音生成相关技术的数据处理、模型效果验证,并协助业务落地; 2. 负责持续跟进业界前沿算法发展方向,支持公司在核心技术上的影响力发展。

更新于 2025-03-05
logo of alibaba
实习淘天集团日常实习

1、设计和研发语音多模态大模型在业务场景的落地方案,负责语音模态业务整体pipeline优化,包括但不限于降噪、声纹、ASR、TTS等; 2、结合大模型Agent技术,优化语音+图片多模态下的real time业务落地交互方案; 3、解决业务落地中的关键技术问题,持续跟进业界语音大模型技术最新进展,加速新技术的引进、适配与优化。

更新于 2025-05-06
logo of xiaohongshu
实习大模型

尽管当前的多模态大模型(融合视觉、语音、文本)已展现出强大的感知与理解潜力,但是在实时交互场景中,由于模型设计导致的高延迟、生硬的轮次状态、频繁的打断或被打断严重影响信息传递效率。同时多个模态无法实时融合也限制了多模态模型在语音交互场景下的深度应用。生成的交互内容有时显得冗长、缺乏提炼或智能不足,这些问题限制了用户与大模型实时交流的体验。 本课题的目标是设计并验证一种全模态实时交互的大模型架构,将视觉模态、语音流模态、思考模态信息以及 SOTA LLM 进行实时融合。从而使得大模型可以与人进行即时、流畅、且深入浅出、富有智慧的多模态自然语音对话。

更新于 2025-09-06