小鹏汽车计算机视觉和机器学习实习生(机器人导航)
实习兼职地点:深圳状态:招聘
任职要求
岗位要求: • 研究生及以上在读,计算机相关专业。有一个或多个相关应用领域的背景(比如:计算机视觉,自然语言处理,语音理解等)。 • 熟练掌握编程语言(python / C++),对深度学习框架有丰富的使用经验(Pytorch, Tensor…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
小鹏机器人中心致力于研发先进的人形机器人技术,包括机器人的行走,操作,智能导航,在大语言模型支撑下的人机交互等。我们拥有世界一流的软硬件团队,分布于深圳,上海,北京,广州和北美。作为计算机视觉和多模态大模型领域实习生,你将和机器人中心相关领域的工程师共同解决科研和工程问题。我们将共同成长,在人形机器人前沿领域留下自己印记。 你将获得: • 最前沿的AI相关技术,包括端到端导航,视觉和多模态基础大模型训练,推理,数据获取,机器人平台的应用部署等。 • 行业专家的指导。对于优秀的工作,我们会鼓励和帮助文章发表或专利申请。 • 完备的实验室条件, 包括充分的计算资源,机器人硬件平台等。 • 实习生是公司的宝贵财富,对于即将毕业的优秀的实习生,我们会优先考虑其全职工作申请。
包括英文材料
OpenCV+
https://learnopencv.com/getting-started-with-opencv/
At LearnOpenCV we are on a mission to educate the global workforce in computer vision and AI.
https://opencv.org/university/free-opencv-course/
This free OpenCV course will teach you how to manipulate images and videos, and detect objects and faces, among other exciting topics in just about 3 hours.
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
还有更多 •••
相关职位
社招A210746
负责VLA(视觉-语言-行动)多模态大模型在自动驾驶和机器人场景中的前沿算法研究,涵盖场景理解、语义引导决策、时空建模等核心能力; 主导VLA模型预研,构建可泛化、高可解释性的多模态基座大模型,为未来6~12个月技术演进提供基础支撑; 与高校及实习生协作,探索VLA的长期发展方向,包括表征学习,具身智能、慢系统蒸馏快系统等核心议题; 撰写高水平论文、技术文档,推动VLA方向在CVPR、NeurIPS、ICLR、CoRL等会议中的学术影响力。
更新于 2025-03-26北京
实习通义研究型实习生
1.负责流式音视频理解的前沿算法研究、实现与优化,重点攻克音视频联合增强、跨模态交互、流式分析等关键任务。 2.探索音视频数据集的构建与处理,需涵盖事件定位、过程描述、情感分析、主题概括等不同类型任务,探索数据增强策略,并建设高效的数据生产、标注和评估 pipeline。 3.具备技术前瞻性与创新能力,跟踪国际最新技术动态,探索如多模态理解创新架构、音视频理解等新方向,并提出创新算法或方案,推动学术前沿发展。
更新于 2025-12-04北京|杭州|上海
实习通义研究型实习生
1.负责多模态理解大模型的前沿算法研究、实现与优化,重点攻克图像/视频理解、视觉问答、跨模态交互等关键任务。 2.参与构建和清洗大规模多模态数据集,探索数据增强策略,并可能建设高效的数据生产、标注和评估 pipeline,涵盖通用数据、视频、OCR等场景。 3.具备技术前瞻性与创新能力,跟踪国际最新技术动态,探索如多模态理解创新架构、音视频理解、Agentic RAG、AI Memory等新方向,并提出创新算法或方案,推动学术前沿发展。
更新于 2025-12-02杭州|上海
