蚂蚁金服研究型实习生-基于多模态大模型的寻路Agent研究
实习兼职研究型实习生地点:北京 | 上海 | 杭州状态:招聘
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
研究领域: 人工智能 项目简介: 随着多模态大模型的性能持续提升,用户指令的意图理解、路径规划、慢思考决策、精细化执行等方向近期均取得了长足的进步,使得Phone-Use从RPA时代进入智能时代。本项目重点研究Intelligent Phone/Computer Use Agent,从底层领域基座、到上层应用,打造Agent Native Model和AI Native的Agent产品,为业务场景带来新的突破。
包括英文材料
学历+
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
C+
https://www.freecodecamp.org/chinese/news/the-c-beginners-handbook/
本手册遵循二八定律。你将在 20% 的时间内学习 80% 的 C 编程语言。
https://www.youtube.com/watch?v=87SH2Cn0s9A
https://www.youtube.com/watch?v=KJgsSFOSQv0
This course will give you a full introduction into all of the core concepts in the C programming language.
https://www.youtube.com/watch?v=PaPN51Mm5qQ
In this complete C programming course, Dr. Charles Severance (aka Dr. Chuck) will help you understand computer architecture and low-level programming with the help of the classic C Programming language book written by Brian Kernighan and Dennis Ritchie.
还有更多 •••
相关职位
实习研究型实习生
研究领域: 人工智能 项目简介: 近年来,大语言模型和多模态大模型的迅速发展解锁了众多应用场景,包括视觉指令跟随和长视频理解,最近的一些开源方法也已经在提升流式视频处理能力方面有所进展,但它们在交互流畅性和感知能力方面仍然存在不足。本项目旨在对流式视频理解和交互方向加大投入,在多模态大模型视觉内容理解、动态变化跟踪和精确时间对齐等方面进行算法创新,并尝试挖掘其对视频交互中风险动作和风险对话的识别能力,为依赖视频交互能力的各业务场景带来新的突破。
北京|上海|杭州
实习淘天集团研究型实
希望解决如下技术问题。 1、适用于商品视频生成的文本-视频数据集:构建一个能够支持基于多模态大模型的商品视频生成算法训练和优化的文本-视频数据集 2. 基于多模态大模型的商品视频生成系统:通过探索基于多模态大模型的文本到视频生成技术,以“视频关键帧-高帧率视频-高分辨率视频”为基本路径,完成文本到视频关键帧生成模型、视频插帧模型、视频超分辨率生成模型等核心算法模型,构建视频生成系统,实现输入商品描述文本+商品图片,自动生成原生化的商品微视频和商品短视频。
更新于 2025-05-06北京|杭州
实习通义研究型实习生
专注于多模态大模型与人机交互技术的创新研究及实践,具体职责包括: 1、探索多模态大模型(文本/图像/语音/视频等)的交互式应用场景,研发新型人机交互范式; 2、针对多模态交互复杂任务推理进行探索及研究,提升多模态、多跳推理场景下的复杂任务完成率; 3、优化多模态数据的融合算法,提升模型对复杂交互场景的理解与响应能力; 4、构建高效的多模态交互系统模型架构,研究低延迟、高并发的实时交互技术方案。
更新于 2025-04-21北京|杭州