logo of tongyi

通义研究型实习生-多模态通用和推理大模型后训练研究

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1. 计算机视觉自然语言处理、人工智能等专业优秀在读博士;
2. 熟练掌握tensorflow、pytorch等至少一种主流深度学习框架,有复杂模型设计和建模经验;
3. …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 模型多模态能力的提升,包括但不限于:物理世界细粒度视觉感知、空间感知、视频时序行为预测和推理、基于视觉的决策和规划;
2. 多模态数据的制作,包括:训练数据的收集、清理和标注,测试Benchmark的构建;
3. 多模态RL相关研究,包括通过RL提升模型常规感知能力和推理能力;
4. 多模态任务评测,包括:客观的Benchmark接入、OOD评测、以及主观评测。
包括英文材料
OpenCV+
NLP+
TensorFlow+
还有更多 •••
相关职位

logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 近年来,大语言模型和多模态大模型的迅速发展解锁了众多应用场景,包括视觉指令跟随和长视频理解,最近的一些开源方法也已经在提升流式视频处理能力方面有所进展,但它们在交互流畅性和感知能力方面仍然存在不足。本项目旨在对流式视频理解和交互方向加大投入,在多模态大模型视觉内容理解、动态变化跟踪和精确时间对齐等方面进行算法创新,并尝试挖掘其对视频交互中风险动作和风险对话的识别能力,为依赖视频交互能力的各业务场景带来新的突破。

北京|上海|杭州
logo of tongyi
实习通义研究型实习生

当前大模型(LLMs/MLLMs)在长对话和复杂任务链中面临上下文窗口限制和遗忘问题。尽管扩大上下文长度有所帮助,但其计算和推理成本高昂,且难以实现真正意义上的终身学习和经验累积。另一方面,现有模型在交互中往往缺乏个性化的体验,无法有效地捕捉、存储和召回与特定用户、特定场景相关的多模态经验。为了使大模型具备像人类一样从持续交互中学习、积累和灵活调度的能力,并实现从通用助手到私人智能伙伴的跃升,亟需构建一个高效、多层次、时间敏感的多模态记忆系统。这不仅能突破输入长度限制,还能通过跨模态信息的整合和知识的结构化,大幅提升模型在复杂场景下的鲁棒性、泛化能力和自我进化能力。 大模型多模态记忆增强研究项目,团队在多个方向上进行探索,若你对以下一个或多个课题感兴趣均欢迎投递: 1. 多层次记忆的构建与管理 2. 多模态记忆的嵌入与召回 3. 时间敏感的记忆调度策略 4. 记忆智能体(Memory Agent)的构建

更新于 2025-10-17北京|杭州|上海
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 随着多模态大模型在复杂推理任务(逻辑推理、数学推导、多模态推理等)中的需求激增,高质量推理类语料的稀缺性成为模型能力提升的核心瓶颈。本项目旨在通过人工合成与优化,构建适配多场景的推理语料库,为大模型训练与评估提供高质量数据支撑。

杭州|成都
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 随着多模态大模型展现出强大通用能力,医疗领域迎来了前所未有的变革机遇。医疗报告解读作为医疗诊断和治疗的重要环节,目前业内多家科技公司均具备相应解读能力。本项目旨在结合医疗多模态大模型及多条件异常指标解读和推理能力,进一步提升报告解读的准确性,达到专业临床医生的水准,给用户提供更加精准、全面的医疗报告解读服务。

杭州