logo of tongyi

通义研究型实习生 - 流式音视频理解系统的构建和优化

实习兼职通义研究型实习生地点:北京 | 杭州 | 上海状态:招聘

任职要求


1.硕士及以上学历,计算机、人工智能、电子、机器人等相关专业。
2.在计算机视觉、多模态、机器学习等一个或多个领域有深入的研究者。
3.深入理解深度学习计算机视觉自然语言处理基础知识,对VLM/MLLM模型原理有清晰认识。
4.具备良好的团队合作精神和沟通能力,对解决富有挑战性…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责流式音视频理解的前沿算法研究、实现与优化,重点攻克音视频联合增强、跨模态交互、流式分析等关键任务。
2.探索音视频数据集的构建与处理,需涵盖事件定位、过程描述、情感分析、主题概括等不同类型任务,探索数据增强策略,并建设高效的数据生产、标注和评估 pipeline。
3.具备技术前瞻性与创新能力,跟踪国际最新技术动态,探索如多模态理解创新架构、音视频理解等新方向,并提出创新算法或方案,推动学术前沿发展。
包括英文材料
学历+
OpenCV+
机器学习+
深度学习+
NLP+
还有更多 •••
相关职位

logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 近年来,大语言模型和多模态大模型的迅速发展解锁了众多应用场景,包括视觉指令跟随和长视频理解,最近的一些开源方法也已经在提升流式视频处理能力方面有所进展,但它们在交互流畅性和感知能力方面仍然存在不足。本项目旨在对流式视频理解和交互方向加大投入,在多模态大模型视觉内容理解、动态变化跟踪和精确时间对齐等方面进行算法创新,并尝试挖掘其对视频交互中风险动作和风险对话的识别能力,为依赖视频交互能力的各业务场景带来新的突破。

北京|上海|杭州
logo of tongyi
实习通义研究型实习生

1. 探索基于大模型的语音双工交互系统关键技术,包括流式语音理解、增量文本生成、打断检测与恢复等; 2. 参与端侧轻量化语音大模型的研发,开展模型压缩(剪枝/量化/蒸馏)、硬件感知优化与高效推理引擎实现; 3. 参与设计并实现端云任务动态协同调度机制,基于网络状态、用户意图、隐私敏感度等多维上下文,智能分配计算负载,实现性能与隐私的最优平衡; 4. 参与构建支持跨端云一致性的多轮对话状态管理框架,确保长上下文语义连贯性与用户记忆的无缝衔接; 5. 参与建立面向真实场景的端云融合语音系统综合评估体系,从延迟、功耗、准确率、鲁棒性到隐私合规性等维度开展系统级测试与优化。

更新于 2025-11-21杭州
logo of alibaba
实习淘天集团研究型实

1. 跟进和研发MPC、PIR、DP、PrivateID等隐私增强计算技术,结合广告流式场景设计符合大数据集下的安全算法/安全协议实现。 2. 深度参与高可用和可扩展的流式隐私计算框架设计,优化通信开销与计算复杂度,应用于实际的对外数据合作场景。 3. 结合以上方向的探索和研究,梳理和提出创新的安全算法/协议,发表到领域内顶会期刊,和业界、学术界保持良好的交流。

更新于 2025-08-19北京
logo of antgroup
实习研究型实习生

研究领域: 多媒体 项目简介: 在AGI产品日益普及的当下,语音作为用户与智能系统之间的重要交互方式,正被广泛接受和应用。为了提供更为自然流畅的语音交流体验,我们需要聚焦以下关键问题: 1. 语言特性:包括韵律、情感等语音习惯的模拟,使得合成语音更接近于真实人类的表达,确保对话的流畅性和可控性。 2. 实时响应:力求在极短的响应时间内(毫秒级)生成语音,以满足用户对于实时互动的需求。 因此,本项目旨在研发高可信度的语音合成方案,并将其成功应用于支小宝等业务场景中。研究方向涵盖但不限于情感可控合成、副语言合成、韵律控制、流式生成等多个技术领域。

杭州|深圳