小鹏汽车【26届校招】大模型数据算法工程师
校招全职地点:广州状态:招聘
任职要求
1,教育背景:计算机、自动化、电子工程、数学等相关专业硕士及以上学历 技术能力; 2,熟练掌握transformer模型架构、具备规控算法经验; 3,熟悉主流框架(PyTorch),具备模型训练、调优和部署经验; 4,编程能力扎实(Python/C++),熟悉Linux开发环境.
工作职责
1. 负责自动驾驶多模态数据的合成技术研发与工程实现,构建高质量、多样化的仿真与合成数据,提升训练数据的覆盖场景丰富度与边界案例覆盖率,满足端到端自动驾驶模型的训练需求; 2. 深入分析自动驾驶训练数据的特征与分布规律,运用统计建模、机器学习与因果推理方法挖掘数据中的潜在问题(如样本偏差、长尾分布、标签错误、对抗样本等); 3. 研究并开发面向自动驾驶场景的高效自动标签算法,基于规则算法和大模型数据挖掘方法,提升为大模型pretrain,sft,RL阶段提供高质量数据; 4. 构建端到端的数据质量评估与过滤体系,设计适用于自动驾驶任务的数据质量指标(如场景完整性、数据分布合理性、时序一致性、合规性等),开发自动化检测工具链,对标签数据、合成数据开展模型训练,提升模型在安全性,效率,合规,安心感等方面的表现; 5. 持续跟踪自动驾驶与大模型的前沿数据技术,推动数据合成、自动标注、质量评估等核心算法在实际工程系统中的部署与落地。
包括英文材料
学历+
Transformer+
https://huggingface.co/learn/llm-course/en/chapter1/4
Breaking down how Large Language Models work, visualizing how data flows through.
https://poloclub.github.io/transformer-explainer/
An interactive visualization tool showing you how transformer models work in large language models (LLM) like GPT.
https://www.youtube.com/watch?v=wjZofJX0v4M
Breaking down how Large Language Models work, visualizing how data flows through.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
Linux+
https://ryanstutorials.net/linuxtutorial/
Ok, so you want to learn how to use the Bash command line interface (terminal) on Unix/Linux.
https://ubuntu.com/tutorials/command-line-for-beginners
The Linux command line is a text interface to your computer.
https://www.youtube.com/watch?v=6WatcfENsOU
In this Linux crash course, you will learn the fundamental skills and tools you need to become a proficient Linux system administrator.
https://www.youtube.com/watch?v=v392lEyM29A
Never fear the command line again, make it fear you.
https://www.youtube.com/watch?v=ZtqBQ68cfJc
相关职位
校招
我们正在寻找对大语言模型(Large Language Model,LLM)充满热情的数据算法工程师,加入我们的核心AI团队。你将主要负责LLM高质量与大规模数据的采集与处理,并参与从LLM预训练、微调、推理优化到多场景应用落地的全流程工作,推动LLM技术在对话系统、内容生成、知识推理、具身智能等领域的创新 1. 主导LLM数据的采集和处理,搭建高效的数据处理 Pipeline,实现从海量原始数据到可直接驱动模型训练的高质量数据的转化。 2. 打造并优化数据平台的核心模块(包括处理、标注、对齐、存储与可视化),确保数据的可追溯性与可验证性。 3. 参与大模型从预训练到后训练的全链路流程,深入分析模型对数据的敏感点,通过数据迭代持续提升模型能力。 4. 紧跟全球前沿技术动态,研究并引入最新的数据集与标准,将优秀的开源经验转化为团队的核心优势,持续扩展数据版图。
更新于 2025-10-14
校招
1、参与自动驾驶系统中多模态大模型算法的研究、开发与优化,包括但不限于世界模型、端到端感知大模型、VLA大模型、多模态视觉语言大模型、离线数据算法大模型等方面的应用; 2、负责设计实现不同领域应用的多模态大模型架构,对模型进行迭代优化,以车端模型/数据产线模型量产为主要目标; 3、设计和实现多模态大模型的训练流程,包括选择合适的优化算法、调整超参数、评估模型性能等,确保模型在不同场景下的稳定性和可靠性; 4、针对多模态大模型模型进行车端/云端部署,能够让模型在大规模量产场景下高效运行,产生业务价值; 5、针对多模态大模型进行训练效率优化,实现训练提效。
更新于 2025-08-15