通义研究型实习生 - 流式音视频理解系统的构建和优化

实习兼职通义研究型实习生2025-12-04地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1.硕士及以上学历，计算机、人工智能、电子、机器人等相关专业。
2.在计算机视觉、多模态、机器学习等一个或多个领域有深入的研究者。
3.深入理解深度学习、计算机视觉和自然语言处理基础知识，对VLM/MLLM模型原理有清晰认识。
4.具备良好的团队合作精神和沟通能力，对解决富有挑战性…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.负责流式音视频理解的前沿算法研究、实现与优化，重点攻克音视频联合增强、跨模态交互、流式分析等关键任务。
2.探索音视频数据集的构建与处理，需涵盖事件定位、过程描述、情感分析、主题概括等不同类型任务，探索数据增强策略，并建设高效的数据生产、标注和评估 pipeline。
3.具备技术前瞻性与创新能力，跟踪国际最新技术动态，探索如多模态理解创新架构、音视频理解等新方向，并提出创新算法或方案，推动学术前沿发展。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

OpenCV+

机器学习+

深度学习+

NLP+

ICLR+

还有更多 •••

登录查看完整学习资料

相关职位

voice agent算法实习生

实习高德研究型实习生

团队介绍：高德语音技术部，是负责高德全栈语音技术的综合性团队。团队核心技术能力包括：自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景，包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。团队定位是通过前沿语音技术的研究和落地，赋能下一代AI产品创新。近期部分技术（https://arxiv.org/abs/2507.12197https://arxiv.org/abs/2507.12197）和产品进展介绍（https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg）https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHghttps://arxiv.org/abs/2507.12197）和产品进展介绍（https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg）具体职责：围绕voice agent/speech language model的研究工作，包括但不限于如下事项：跟进最领先的语音交互技术，包括但不限于提出新的技术框架、改进现有的算法、持续提升相关技术及业务指标，鼓励撰写论文及申请专利；结合业务场景，探索跨模态（文字/语音/视觉）混合训练的最佳实践，探索基于speech language model的后训练(SFT+RL)技术，持续优化交互响应、交互内容，结合规划agent/工具调用agent，持续提升voice agent的交互体验，从而反馈到高德agent的整体能力；探索流式全双工对话中，更加高效且合理的模型架构，包括但不限于COT Reasoning in streaming full-duplex等；海量的语音数据，尤其是对话数据的处理构建：定性分析、定量评估、参与设计自动评估框架，研发 scalable 的改进方案，持续提升数据质量；

更新于 2026-02-04北京

语音数据实习生

实习高德研究型实习生

团队介绍：高德语音技术部，是负责高德全栈语音技术的综合性团队。团队核心技术能力包括：自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景，包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。团队定位是通过前沿语音技术的研究和落地，赋能下一代AI产品创新。近期部分技术（https://arxiv.org/abs/2507.12197）和产品进展介绍（https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg）具体职责： 1. 协助语音大模型的数据构建，搭建高效高质的语音数据生产Pipeline 和数据标准，优化Pipeline算子，用高质量数据提升技术预研和业务落地的效果； 2. 参与语音大模型的端到端评测，搭建科学敏捷的评测Pipeline和评测标准，用全面真实的评测推动模型效果优化提升； 3. 深度理解对话交互、音视频创作的技术和产品趋势，设计与业务目标贴合的数据与评测方案；与团队协同，积极探索自动化数据生产/模型评估、数据合成等方法，提高数据标注/评测效率；

更新于 2025-12-09北京

研究型实习生-基于多模态大模型的流式视频交互和风险推理研究

实习研究型实习生

研究领域：人工智能项目简介：近年来，大语言模型和多模态大模型的迅速发展解锁了众多应用场景，包括视觉指令跟随和长视频理解，最近的一些开源方法也已经在提升流式视频处理能力方面有所进展，但它们在交互流畅性和感知能力方面仍然存在不足。本项目旨在对流式视频理解和交互方向加大投入，在多模态大模型视觉内容理解、动态变化跟踪和精确时间对齐等方面进行算法创新，并尝试挖掘其对视频交互中风险动作和风险对话的识别能力，为依赖视频交互能力的各业务场景带来新的突破。

北京|上海|杭州

研究型实习生-端云融合的大模型语音交互系统研发与优化

实习通义研究型实习生

1. 探索基于大模型的语音双工交互系统关键技术，包括流式语音理解、增量文本生成、打断检测与恢复等； 2. 参与端侧轻量化语音大模型的研发，开展模型压缩（剪枝/量化/蒸馏）、硬件感知优化与高效推理引擎实现； 3. 参与设计并实现端云任务动态协同调度机制，基于网络状态、用户意图、隐私敏感度等多维上下文，智能分配计算负载，实现性能与隐私的最优平衡； 4. 参与构建支持跨端云一致性的多轮对话状态管理框架，确保长上下文语义连贯性与用户记忆的无缝衔接； 5. 参与建立面向真实场景的端云融合语音系统综合评估体系，从延迟、功耗、准确率、鲁棒性到隐私合规性等维度开展系统级测试与优化。

更新于 2025-11-21杭州