小鹏汽车大语言模型预训练算法实习生

实习兼职2025-10-15地点：深圳状态：招聘

扫码手机上打开

任职要求

岗位需求
1. 教育背景： 计算机、人工智能、数学、物理等相关专业硕士及以上学位，有顶级会议（如NeurIPS, ICML, ICLR, AAAI等）论文发表经验者优先。
2. 核心算法理解： 深入理解Transformer、GPT、LLaMA、Qwen等主流模型架构的底层数学原理与训练细节，对Linear attention、RMSNorm、DynamicTanh (DyT)、Mixture of Experts (MoE)等关…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们正在寻找对大语言模型（LLM）的底层原理、性能优化和高效预训练充满热情的算法实习生。您将加入我们的核心研发团队，主要负责LLM预训练阶段的算法设计、优化与实现，包括模型架构的探索、训练稳定性的提升、大规模分布式训练的优化等。我们的目标是基于业务需求，设计并训练对硬件计算友好的语言模型，从根本上突破模型的性能和训练效率极限，加速LLM在人形机器人、自动驾驶、多模态等前沿领域的落地。
工作职责：
1.  LLM预训练算法研发与实现： 主导1~7B参数级别的Dense以及MoE Transformer模型以及其他前沿架构在预训练阶段的设计、实验与优化，以提升模型的基础能力和效率。
2. 基准测试与性能优化： 负责模型训练过程中的关键性能指标监测与优化，特别是MMLU, GSM8K, MATH等常见标准化测试的表现。通过算法迭代，持续提高模型在理解、推理和泛化能力方面的分数。
3. 训练稳定性与效率提升： 负责分析和解决超大规模训练过程中的数值不稳定、梯度爆炸/消失等问题，引入和实现如混合精度训练、梯度裁剪、学习率调度等优化策略。
4. 前沿技术追踪与转化： 紧密追踪全球LLM预训练、Scaling Law、新型优化器（如AdamW、Lion）等最新研究进展，评估并将业界顶尖的算法创新快速转化为我们的核心竞争力。
5. 跨团队协作： 与数据工程师紧密合作，分析数据对预训练效果的影响，并与系统/硬件工程师协作，共同调优底层计算资源以实现最高训练吞吐。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

NeurIPS+

ICML+

ICLR+

AAAI+

还有更多 •••

登录查看完整学习资料

相关职位

【26届校招】大语言模型预训练算法工程师

校招

我们正在寻找对大语言模型（LLM）的底层原理、性能优化和高效预训练充满热情的顶级算法工程师。您将加入我们的核心研发团队，主要负责LLM预训练阶段的算法设计、优化与实现，包括模型架构的探索、训练稳定性的提升、大规模分布式训练的优化等。我们的目标是基于业务需求，设计并训练对硬件计算友好的语言模型，从根本上突破模型的性能和训练效率极限，加速LLM在人形机器人、自动驾驶、多模态等前沿领域的落地。工作职责： 1. LLM预训练算法研发与实现：主导1~7B参数级别的Dense以及MoE Transformer模型以及其他前沿架构在预训练阶段的设计、实验与优化，以提升模型的基础能力和效率。 2. 基准测试与性能优化：负责模型训练过程中的关键性能指标监测与优化，特别是MMLU, GSM8K, MATH等常见标准化测试的表现。通过算法迭代，持续提高模型在理解、推理和泛化能力方面的分数。 3. 训练稳定性与效率提升：负责分析和解决超大规模训练过程中的数值不稳定、梯度爆炸/消失等问题，引入和实现如混合精度训练、梯度裁剪、学习率调度等优化策略。 4. 前沿技术追踪与转化：紧密追踪全球LLM预训练、Scaling Law、新型优化器（如AdamW、Lion）等最新研究进展，评估并将业界顶尖的算法创新快速转化为我们的核心竞争力。 5. 跨团队协作：与数据工程师紧密合作，分析数据对预训练效果的影响，并与系统/硬件工程师协作，共同调优底层计算资源以实现最高训练吞吐。

更新于 2025-10-15上海|深圳

研究型实习生-大语言模型的多语言预训练探索与研究

实习阿里巴巴研究型实

大模型因其强大的语言理解和生成能力，在人工智能领域引起了广泛关注。当前，ChatGPT、LLama等关注英语的大型语言模型已经取得了显著成就。关注中文的大模型，如ChatGLM、MOSS以及千问等也正在快速发展。然而，中/英以外的语言能力关注较少，但需求和研究价值很高。

更新于 2026-07-22北京|杭州

大语言模型方向

实习技术类

灵犀大语言模型与灵犀语音大模型训练，利用58独有的业务数据优势提升大模型在58业务场景中的效果

更新于 2026-06-09北京

大语言模型算法实习生

实习

1. 负责大语言模型（LLM）在人形机器人中的算法设计与开发，将LLM应用于机器人的对话、环境感知与人机交互任务 2. 参与大模型从预训练到后训练的全链路流程，深入分析模型对数据的敏感点，通过数据迭代与合成技术推动模型能力提升 3. 基于主流的大规模数据处理框架，参与搭建高效的数据处理 Pipeline，从海量原始数据中“炼金”，让它们转化为可直接驱动模型训练的高质量数据 4. 跟踪前沿研究，推动新技术在产品中的落地应用，根据业务需求，有机会参与LLM团队针对语言模型后训练RL框架的搭建与优化

更新于 2025-10-09深圳