小鹏汽车【26届校招】大语言模型预训练算法工程师
任职要求
1. 教育背景: 计算机、人工智能、数学、物理等相关专业硕士及以上学位,有顶级会议(如NeurIPS, ICML, ICLR, AAAI等)论文发表经验者优先。 2. 核心算法理解: 深入理解Transformer、GPT、LLaMA、Qwen等主流模型架构的底层数学原理与训练细节,对Linear attention、RMSNorm、DynamicTanh (DyT)、Mixture of Experts (MoE)等关键模块有独到见解。 3. 分布式训练实战经验: 具备主导或深度参与LLM预训练的实际经验,熟悉PyTorch、DeepSpeed、Megatron-LM等分布式训练框架。 4. 专业素养: 具备严谨的实验设计和结果分析能力,能够主动发现并解决训练过程中的复杂算法问题。 5. 沟通协作: 具备优秀的沟通能力和团队合作精神,能够与数据、系统、硬件等不同背景的团队高效协作。 6. 加分项:有使用过大于128张GPU进行LLM预训练等经验。
工作职责
我们正在寻找对大语言模型(LLM)的底层原理、性能优化和高效预训练充满热情的顶级算法工程师。您将加入我们的核心研发团队,主要负责LLM预训练阶段的算法设计、优化与实现,包括模型架构的探索、训练稳定性的提升、大规模分布式训练的优化等。我们的目标是基于业务需求,设计并训练对硬件计算友好的语言模型,从根本上突破模型的性能和训练效率极限,加速LLM在人形机器人、自动驾驶、多模态等前沿领域的落地。 工作职责: 1. LLM预训练算法研发与实现: 主导1~7B参数级别的Dense以及MoE Transformer模型以及其他前沿架构在预训练阶段的设计、实验与优化,以提升模型的基础能力和效率。 2. 基准测试与性能优化: 负责模型训练过程中的关键性能指标监测与优化,特别是MMLU, GSM8K, MATH等常见标准化测试的表现。通过算法迭代,持续提高模型在理解、推理和泛化能力方面的分数。 3. 训练稳定性与效率提升: 负责分析和解决超大规模训练过程中的数值不稳定、梯度爆炸/消失等问题,引入和实现如混合精度训练、梯度裁剪、学习率调度等优化策略。 4. 前沿技术追踪与转化: 紧密追踪全球LLM预训练、Scaling Law、新型优化器(如AdamW、Lion)等最新研究进展,评估并将业界顶尖的算法创新快速转化为我们的核心竞争力。 5. 跨团队协作: 与数据工程师紧密合作,分析数据对预训练效果的影响,并与系统/硬件工程师协作,共同调优底层计算资源以实现最高训练吞吐。
我们正在寻找对大语言模型(Large Language Model,LLM)充满热情的数据算法工程师,加入我们的核心AI团队。你将主要负责LLM高质量与大规模数据的采集与处理,并参与从LLM预训练、微调、推理优化到多场景应用落地的全流程工作,推动LLM技术在对话系统、内容生成、知识推理、具身智能等领域的创新 1. 主导LLM数据的采集和处理,搭建高效的数据处理 Pipeline,实现从海量原始数据到可直接驱动模型训练的高质量数据的转化。 2. 打造并优化数据平台的核心模块(包括处理、标注、对齐、存储与可视化),确保数据的可追溯性与可验证性。 3. 参与大模型从预训练到后训练的全链路流程,深入分析模型对数据的敏感点,通过数据迭代持续提升模型能力。 4. 紧跟全球前沿技术动态,研究并引入最新的数据集与标准,将优秀的开源经验转化为团队的核心优势,持续扩展数据版图。
- 负责多模态大模型(VLM: Vision-Language Model / VLA: Vision-Language-Action Model)在人形机器人中的算法设计与开发,将VLM/VLA 应用于人形机器人的智能操作与人机交互任务; - 参与大模型的预训练、后训练(SFT + RL)及部署工作,支持机器人在复杂环境下的感知与行为能力; - 与机器人平台团队、硬件团队紧密协作,实现模型在实际机器人系统中的高效运行; - 跟踪前沿研究,推动新技术在产品中的落地应用。
T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 你的挑战: 攻克LLM全链路训练难题:主导大模型训练,优化模型Scaling Law,结合应用需求突破分布式性能瓶颈,基于RL增强模型推理能力,打造电商领域最懂用户需求的超级大脑(含多模态VLM研发)。 为什么选择淘天? 1.坐拥电商领域最大规模场景:每天处理数亿次用户交互,覆盖搜索/推荐/广告/客服/营销全链路,你将直接面对全球最复杂的电商需求场景。 2.定义未来购物标准:你研发的模型将服务数亿消费者,结合大语言和多模态模型能力满足用户偏好,影响海量商家经营决策。 3.顶级科研配置:超大规模GPU集群支持大规模参数模型训练,自研分布式框架实现训练推理效率大幅提升,顶级会议发表,前沿技术成果即时输血。 加入我们,你将获得: 1.与NLP/多模态领域顶尖团队共创,解锁大模型在商品理解、智能创作、消费决策、购物对话等场景的无限可能。 2.弹性化的技术路线选择权,既可在大模型基础技术方面突破能力上限,也可深入应用层打造现象级AI产品。 3.打通产学研用全链路:支持技术成果转化顶会论文和专利+百万级ai native用户产品。 T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ꔷ 投递T-Star实习生,提前解锁淘天顶级技术岗位,实习与T-Star正式批/应届秋招投递不冲突。拿到T-Star意向书的同时,将获得直通正式批次终面的机会;参与T-Star实习且表现优秀的同学,提供T-Star转正Offer。