logo of xpeng

小鹏汽车大语言模型数据算法实习生

实习兼职地点:深圳 | 上海状态:招聘

任职要求


1. 计算机、人工智能、自动化等相关专业硕士及以上学历。
2. 具备处理和构建LLM数据集的实际经验,熟悉LLM领域常用数据集(如DCLM、Fineweb等),掌握常用的数据处理与清洗方法。
3. 熟悉TransformerGPT系列、LLaMA、GLM等主流模型架构,深入理解训练数据在模型训练中的作用与影响。
4. 熟练掌握Python编程语言,熟练使用PyTorch深度学习框…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


我们正在寻找对大语言模型(Large Language Model,LLM)充满热情的数据算法工程师,加入我们的核心AI团队。你将主要负责LLM高质量与大规模数据的采集与处理,并参与从LLM预训练、微调、推理优化到多场景应用落地的全流程工作,推动LLM技术在对话系统、内容生成、知识推理、具身智能等领域的创新

1. 主导LLM数据的采集和处理,搭建高效的数据处理 Pipeline,实现从海量原始数据到可直接驱动模型训练的高质量数据的转化。
2. 打造并优化数据平台的核心模块(包括处理、标注、对齐、存储与可视化),确保数据的可追溯性与可验证性。
3. 参与大模型从预训练到后训练的全链路流程,深入分析模型对数据的敏感点,通过数据迭代持续提升模型能力。
4. 紧跟全球前沿技术动态,研究并引入最新的数据集与标准,将优秀的开源经验转化为团队的核心优势,持续扩展数据版图。
包括英文材料
学历+
大模型+
Transformer+
GPT+
还有更多 •••
相关职位

logo of bytedance
实习A10257

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:专注大模型在数据智能方向的应用落地,横向支持公司多个数据产品的大模型解决方案。团队致力于跟进大模型前沿进展,结合领域模型的优化策略来设计端到端的算法优化和评估方案,实现数据产品的智能升级与应用效果提升。团队鼓励敏捷创新,知识共享的协作氛围,专注投入对数据智能课题的持续探索研究。 1、数据增强算法优化:优化SFT/RLHF阶段的数据合成算法,提升训练数据的准确性、多样性和领域适配性; 2、大模型研发:负责面向Code与逻辑推理的大语言模型技术的创新研发,推动基于大语言模型的In-Context Learning、NL2Code建模、自然语言逻辑推理等关键技术的研发和核心问题的解决; 3、推动大模型应用落地:探索包括智能数据问答机器人、代码编程助手等在真实场景的应用价值,并基于评估体系实现应用效果的持续迭代; 4、跟进开源SOTA大模型:探索大模型Scaling law并实践开源大模型在数据智能领域的Post-Training,沉淀技术专利。

更新于 2025-02-19北京
logo of bytedance
实习A88767

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:专注大模型在数据智能方向的应用落地,横向支持公司多个数据产品的大模型解决方案。团队致力于跟进大模型前沿进展,结合领域模型的优化策略来设计端到端的算法优化和评估方案,实现数据产品的智能升级与应用效果提升。团队鼓励敏捷创新,知识共享的协作氛围,专注投入对数据智能课题的持续探索研究。 1、数据增强算法优化:优化SFT/RLHF阶段的数据合成算法,提升训练数据的准确性、多样性和领域适配性; 2、大模型研发:负责面向Code与逻辑推理的大语言模型技术的创新研发,推动基于大语言模型的In-Context Learning、NL2Code建模、自然语言逻辑推理等关键技术的研发和核心问题的解决; 3、推动大模型应用落地:探索包括智能数据问答机器人、代码编程助手等在真实场景的应用价值,并基于评估体系实现应用效果的持续迭代; 4、跟进开源SOTA大模型:探索大模型Scaling law并实践开源大模型在数据智能领域的Post-Training,沉淀技术专利。

更新于 2025-02-19杭州
logo of bytedance
实习A246083

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动Data研发部门,负责公司产品线的推荐、广告、系统架构、大数据和开放平台等技术。 1、数据增强算法研发:优化数据增强算法,提高大模型预训练、SFT、RLHF 阶段的数据正确性、多样性; 2、大模型研发:基于大模型底座,优化训练链路,提升 Text2code、Code-interpreter 等模型应用效果; 3、跟进开源 SOTA 大模型:探索大模型 Scaling law 并结合开源大模型在数据智能领域的精调,沉淀技术专利; 4、推动大模型应用落地:探索包括 RAG-QA 机器人、数据洞察机器人等在真实场景的应用价值。

更新于 2024-07-04北京
logo of bytedance
实习A199436

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动Data研发部门,负责公司产品线的推荐、广告、系统架构、大数据和开放平台等技术。 1、数据增强算法研发:优化数据增强算法,提高大模型预训练、SFT、RLHF 阶段的数据正确性、多样性; 2、大模型研发:基于大模型底座,优化训练链路,提升 Text2code、Code-interpreter 等模型应用效果; 3、跟进开源 SOTA 大模型:探索大模型 Scaling law 并结合开源大模型在数据智能领域的精调,沉淀技术专利; 4、推动大模型应用落地:探索包括 RAG-QA 机器人、数据洞察机器人等在真实场景的应用价值。

更新于 2024-07-04杭州