通义研究型实习生 - 流式音视频理解系统的构建和优化
实习兼职通义研究型实习生地点:北京 | 杭州 | 上海状态:招聘
任职要求
1.硕士及以上学历,计算机、人工智能、电子、机器人等相关专业。 2.在计算机视觉、多模态、机器学习等一个或多个领域有深入的研究者。 3.深入理解深度学习、计算机视觉和自然语言处理基础知识,对VLM/MLLM模型原理有清晰认识。 4.具备良好的团队合作精神和沟通能力,对解决富有挑战性…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1.负责流式音视频理解的前沿算法研究、实现与优化,重点攻克音视频联合增强、跨模态交互、流式分析等关键任务。 2.探索音视频数据集的构建与处理,需涵盖事件定位、过程描述、情感分析、主题概括等不同类型任务,探索数据增强策略,并建设高效的数据生产、标注和评估 pipeline。 3.具备技术前瞻性与创新能力,跟踪国际最新技术动态,探索如多模态理解创新架构、音视频理解等新方向,并提出创新算法或方案,推动学术前沿发展。
包括英文材料
学历+
OpenCV+
https://learnopencv.com/getting-started-with-opencv/
At LearnOpenCV we are on a mission to educate the global workforce in computer vision and AI.
https://opencv.org/university/free-opencv-course/
This free OpenCV course will teach you how to manipulate images and videos, and detect objects and faces, among other exciting topics in just about 3 hours.
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
ICLR+
https://iclr.cc/
还有更多 •••
相关职位
实习研究型实习生
研究领域: 人工智能 项目简介: 近年来,大语言模型和多模态大模型的迅速发展解锁了众多应用场景,包括视觉指令跟随和长视频理解,最近的一些开源方法也已经在提升流式视频处理能力方面有所进展,但它们在交互流畅性和感知能力方面仍然存在不足。本项目旨在对流式视频理解和交互方向加大投入,在多模态大模型视觉内容理解、动态变化跟踪和精确时间对齐等方面进行算法创新,并尝试挖掘其对视频交互中风险动作和风险对话的识别能力,为依赖视频交互能力的各业务场景带来新的突破。
北京|上海|杭州
实习通义研究型实习生
1. 探索基于大模型的语音双工交互系统关键技术,包括流式语音理解、增量文本生成、打断检测与恢复等; 2. 参与端侧轻量化语音大模型的研发,开展模型压缩(剪枝/量化/蒸馏)、硬件感知优化与高效推理引擎实现; 3. 参与设计并实现端云任务动态协同调度机制,基于网络状态、用户意图、隐私敏感度等多维上下文,智能分配计算负载,实现性能与隐私的最优平衡; 4. 参与构建支持跨端云一致性的多轮对话状态管理框架,确保长上下文语义连贯性与用户记忆的无缝衔接; 5. 参与建立面向真实场景的端云融合语音系统综合评估体系,从延迟、功耗、准确率、鲁棒性到隐私合规性等维度开展系统级测试与优化。
更新于 2025-11-21杭州
实习淘天集团研究型实
1. 跟进和研发MPC、PIR、DP、PrivateID等隐私增强计算技术,结合广告流式场景设计符合大数据集下的安全算法/安全协议实现。 2. 深度参与高可用和可扩展的流式隐私计算框架设计,优化通信开销与计算复杂度,应用于实际的对外数据合作场景。 3. 结合以上方向的探索和研究,梳理和提出创新的安全算法/协议,发表到领域内顶会期刊,和业界、学术界保持良好的交流。
更新于 2025-08-19北京