logo of tongyi

通义研究型实习生 - 流式音视频理解系统的构建和优化

实习兼职通义研究型实习生地点:北京 | 杭州 | 上海状态:招聘

任职要求


1.硕士及以上学历,计算机、人工智能、电子、机器人等相关专业。
2.在计算机视觉、多模态、机器学习等一个或多个领域有深入的研究者。
3.深入理解深度学习计算机视觉自然语言处理基础知识,对VLM/MLLM模型原理有清晰认识。
4.具备良好的团队合作精神和沟通能力,对解决富有挑战性…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责流式音视频理解的前沿算法研究、实现与优化,重点攻克音视频联合增强、跨模态交互、流式分析等关键任务。
2.探索音视频数据集的构建与处理,需涵盖事件定位、过程描述、情感分析、主题概括等不同类型任务,探索数据增强策略,并建设高效的数据生产、标注和评估 pipeline。
3.具备技术前瞻性与创新能力,跟踪国际最新技术动态,探索如多模态理解创新架构、音视频理解等新方向,并提出创新算法或方案,推动学术前沿发展。
包括英文材料
学历+
OpenCV+
机器学习+
深度学习+
NLP+
还有更多 •••
相关职位

logo of amap
实习高德研究型实习生

团队介绍: 高德语音技术部,是负责高德全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。近期部分技术(https://arxiv.org/abs/2507.12197https://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg)https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHghttps://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg) 具体职责: 围绕voice agent/speech language model的研究工作,包括但不限于如下事项: 跟进最领先的语音交互技术,包括但不限于提出新的技术框架、改进现有的算法、持续提升相关技术及业务指标,鼓励撰写论文及申请专利; 结合业务场景,探索跨模态(文字/语音/视觉)混合训练的最佳实践,探索基于speech language model的后训练(SFT+RL)技术,持续优化交互响应、交互内容,结合规划agent/工具调用agent,持续提升voice agent的交互体验,从而反馈到高德agent的整体能力; 探索流式全双工对话中,更加高效且合理的模型架构,包括但不限于COT Reasoning in streaming full-duplex等; 海量的语音数据,尤其是对话数据的处理构建:定性分析、定量评估、参与设计自动评估框架,研发 scalable 的改进方案,持续提升数据质量;

更新于 2026-02-04北京
logo of amap
实习高德研究型实习生

团队介绍: 高德语音技术部,是负责高德全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。近期部分技术(https://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg) 具体职责: 1. 协助语音大模型的数据构建,搭建高效高质的语音数据生产Pipeline 和数据标准,优化Pipeline算子,用高质量数据提升技术预研和业务落地的效果; 2. 参与语音大模型的端到端评测,搭建科学敏捷的评测Pipeline和评测标准,用全面真实的评测推动模型效果优化提升; 3. 深度理解对话交互、音视频创作的技术和产品趋势,设计与业务目标贴合的数据与评测方案;与团队协同,积极探索自动化数据生产/模型评估、数据合成等方法,提高数据标注/评测效率;

更新于 2025-12-09北京
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 近年来,大语言模型和多模态大模型的迅速发展解锁了众多应用场景,包括视觉指令跟随和长视频理解,最近的一些开源方法也已经在提升流式视频处理能力方面有所进展,但它们在交互流畅性和感知能力方面仍然存在不足。本项目旨在对流式视频理解和交互方向加大投入,在多模态大模型视觉内容理解、动态变化跟踪和精确时间对齐等方面进行算法创新,并尝试挖掘其对视频交互中风险动作和风险对话的识别能力,为依赖视频交互能力的各业务场景带来新的突破。

北京|上海|杭州
logo of tongyi
实习通义研究型实习生

1. 探索基于大模型的语音双工交互系统关键技术,包括流式语音理解、增量文本生成、打断检测与恢复等; 2. 参与端侧轻量化语音大模型的研发,开展模型压缩(剪枝/量化/蒸馏)、硬件感知优化与高效推理引擎实现; 3. 参与设计并实现端云任务动态协同调度机制,基于网络状态、用户意图、隐私敏感度等多维上下文,智能分配计算负载,实现性能与隐私的最优平衡; 4. 参与构建支持跨端云一致性的多轮对话状态管理框架,确保长上下文语义连贯性与用户记忆的无缝衔接; 5. 参与建立面向真实场景的端云融合语音系统综合评估体系,从延迟、功耗、准确率、鲁棒性到隐私合规性等维度开展系统级测试与优化。

更新于 2025-11-21杭州