高德地图多模态大模型算法实习生-视觉团队
实习兼职高德研究型实习生地点:北京状态:招聘
任职要求
1、计算机科学、人工智能等相关专业硕士及以上学历,博士优先。 2、熟悉多模态领域前沿技术(如CLIP、Stable Diffusion、DreamFusion等),掌握指令微调、LoRA等高效微调方法。有实际项目经验的优先。 3、熟练使用PyTorch、…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
我们正在寻找对多模态技术充满热情的算法工程师,加入我们的前沿技术研发团队。您将专注于多模态理解与生成,推动其在地图数据、信息流推荐、打车服务等场景中的落地应用,为用户提供更智能、更沉浸的服务。 主要职责 1、多模态模型研发:开发业界领先的图文多模态理解与生成模型,结合扩散模型(Diffusion Models)、Transformer架构等实现高质量场景理解和动态内容生成。 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等)。 3、业务场景落地:将多模态技术应用于实际业务场景,如地图数据(道路、POI等)、信息流推荐、打车服务等。 4、前沿技术探索:持续跟踪生成式AI(Generative AI)、跨模态对齐、思维链强化学习、多模态交互、具身智能等最新技术趋势,提出创新性解决方案。
包括英文材料
学历+
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
TensorFlow+
https://www.youtube.com/watch?v=tpCFfeUEGs8
Ready to learn the fundamentals of TensorFlow and deep learning with Python? Well, you’ve come to the right place.
https://www.youtube.com/watch?v=ZUKz4125WNI
This part continues right where part one left off so get that Google Colab window open and get ready to write plenty more TensorFlow code.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
还有更多 •••
相关职位
实习网易伏羲
1. 将深度学习图形图像领域技术结合游戏场景进行创新研究; 2. 负责计算机视觉/图形学相关核心技术在游戏相关领域的算法与落地应用工作,包括但不限于如下方向:3D生成,3D重建,3D人脸/头发/人体,表情/动作,渲染,蒙皮,材质等; 3. 借助游戏平台及数据推动技术前沿的发展,并且能够快速落地应用到业务中; 4. 发表高质量论文或撰写专利,提升技术影响力。
更新于 2025-04-17杭州
实习大模型
本课题的研究目标是优化AI与人类的多模态交互体验,通过研发能够融合文本、视觉和语音等多种模态的自然交互机制,使AI系统能够通过理解图像内容、语音语调和情感等非文本信息增强交互效果。 研究将探索情境感知与个性化适应技术、多轮多模态交互中的意图理解与记忆保持能力,以及跨模态信息的整合与表达方式,使AI系统能够更好地理解用户通过不同感知通道传达的需求,提供视觉和语音层面的情感共鸣,并在长期多模态交互中不断适应用户偏好,实现更加流畅、高效且人性化的人机协作。
更新于 2025-08-22上海|北京|杭州
校招大模型
尽管当前的多模态大模型(融合视觉、语音、文本)已展现出强大的感知与理解潜力,但是在实时交互场景中,由于模型设计导致的高延迟、生硬的轮次状态、频繁的打断或被打断严重影响信息传递效率。同时多个模态无法实时融合也限制了多模态模型在语音交互场景下的深度应用。生成的交互内容有时显得冗长、缺乏提炼或智能不足,这些问题限制了用户与大模型实时交流的体验。 本课题的目标是设计并验证一种全模态实时交互的大模型架构,将视觉模态、语音流模态、思考模态信息以及 SOTA LLM 进行实时融合。从而使得大模型可以与人进行即时、流畅、且深入浅出、富有智慧的多模态自然语音对话。
更新于 2026-03-28上海|北京|杭州