logo of quark

夸克多模态交互算法实习生(多模态大模型方向)

实习兼职日常实习生地点:杭州状态:招聘

任职要求


1.学习与研究能力:对 AI 技术有浓厚兴趣,具备快速学习能力和自主探索精神;有个人项目、开源贡献或相关竞赛经历者优先。
2.技术基础:具备扎实的编程基础,熟练掌握 PythonC/C++;了解 PyTorch深度学习框架;对机器学习
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.前沿技术探索与落地:参与多模态理解、生成式模型、强化学习等前沿技术的应用研究,协助进行多模态模型的数据建设、指令微调、偏好对齐等工作,协助团队进行技术验证和原型开发。
2.多模态 Agent 能力探索:支持多模态交互的基础能力研发,探索多模态 RAG、视觉 CoT、多模态 Agent 等进阶能力;参与 GUI/游戏等虚拟世界的通用多模态 Agent 项目的研究工作。
3.数据建设与评测体系:参与数据质量评估、标注标准制定及自动化数据 Pipeline 的搭建与维护,参与图像/视频理解评估、世界模型评估方法的实验。
包括英文材料
Python+
C+
C+++
PyTorch+
深度学习+
机器学习+
OpenCV+
还有更多 •••
相关职位

logo of bytedance
实习A252546

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动ByteDance Research专注于人工智能领域的前沿技术研究,涵盖了机器翻译、视频理解基础模型、机器人研究、机器学习公平性、量子化学、AI 制药、分子动力学等多技术研究领域,同时致力于将研究成果落地,为公司现有的产品和业务提供核心技术支持和服务。 1、面向多模态人机交互,研究多模态智能体、多模态推理规划、流式音视频对话模型等前沿技术,发表高水平论文和申请专利; 2、探索多模态大模型、强化学习算法、大模型Agent在机器人上的创新应用,参与具身智能算法和应用迭代。

更新于 2025-02-10北京
logo of amap
实习高德研究型实习生

我们正在寻找对多模态技术充满热情的算法工程师,加入我们的前沿技术研发团队。您将专注于多模态理解与生成,推动其在地图数据、信息流推荐、打车服务等场景中的落地应用,为用户提供更智能、更沉浸的服务。 主要职责 1、多模态模型研发:开发业界领先的图文多模态理解与生成模型,结合扩散模型(Diffusion Models)、Transformer架构等实现高质量场景理解和动态内容生成。 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等)。 3、业务场景落地:将多模态技术应用于实际业务场景,如地图数据(道路、POI等)、信息流推荐、打车服务等。与产品、工程团队合作,推动技术从研发到上线的全流程落地。 4、前沿技术探索:持续跟踪生成式AI(Generative AI)、跨模态对齐、思维链强化学习、多模态交互、具身智能等最新技术趋势,提出创新性解决方案。

更新于 2025-07-29北京
logo of amap
实习高德研究型实习生

我们正在寻找对多模态技术充满热情的算法工程师,加入我们的前沿技术研发团队。您将专注于多模态理解与生成,推动其在地图数据、信息流推荐、打车服务等场景中的落地应用,为用户提供更智能、更沉浸的服务。 主要职责 1、多模态模型研发:开发业界领先的图文多模态理解与生成模型,结合扩散模型(Diffusion Models)、Transformer架构等实现高质量场景理解和动态内容生成。 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等)。 3、业务场景落地:将多模态技术应用于实际业务场景,如地图数据(道路、POI等)、信息流推荐、打车服务等。 4、前沿技术探索:持续跟踪生成式AI(Generative AI)、跨模态对齐、思维链强化学习、多模态交互、具身智能等最新技术趋势,提出创新性解决方案。

更新于 2026-03-10北京
logo of mi
实习

1.参与视觉大语言模型(VLM)算法的研究和落地,提升手机汽车等设备的多模态交互体验。 2.参与UIAgent、屏幕理解场景下的数据合成与质量提升,探索数据配比的前沿技术。

更新于 2025-02-19北京