拼多多大模型预训练数据工程师

社招全职技术类2025-12-14地点：上海状态：招聘

扫码手机上打开

任职要求

1. 计算机科学、计算语言学、数学、物理等相关专业硕士或以上学历，或具备同等工程/研究背景；
2. 精通至少一种编程语言（Python / C++ / Scala等），具备优秀的编程和工程实现能力；
3. 熟悉常用数据处理框架（如Spark、Ray、Dask等）与分布式系统；
4. 对自然语言处理、机器学习基础知识有良好理解；
5. 良好的问题分析能力与沟通协作能力，热爱技术与开源文化，富有责任心。

加分项
1. 有万亿Token…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 设计并开发高质量大语言模型（LLM）预训练数据集，包括网页、文档、代码、对话、指令数据等多类型语料；
2. 搭建高效可扩展的数据处理与清洗流程，处理万亿级Token规模；
3. 研究与评估数据对模型性能（如对齐性、鲁棒性、多样性等）的影响，提出数据采样、加权、去偏等优化方法；
4. 与训练、评估等团队密切合作，支撑各阶段模型开发；
5. 跟踪最新开源数据构建技术与学术进展，推动数据层面的技术创新；
6. 参与构建闭环数据质量反馈与自动迭代体系。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Python+

C+++

Scala+

Spark+

Ray+

还有更多 •••

登录查看完整学习资料

相关职位

大模型预训练数据工程师

社招技术类

1）设计并实施大规模语料采集与处理系统，覆盖网页、书籍、代码、对话等多源异构数据； 2）制定数据清洗与去重等各类数据处理策略，提升语料多样性与质量； 3）开发数据质量评估与筛选体系，综合运用多维度方法对语料进行自动化打分与分级淘汰。包括困惑度过滤、质量分类器、内容安全过滤、数据配比与采样等； 4）主导合成数据的设计与生产，覆盖预训练增强与后训练两大场景，提升稀缺领域与长尾能力的数据覆盖，丰富推理、代码相关语料； 5）通过数据消融实验验证数据效果及数据配比策略，推动模型效果提升； 6）分析 MMLU / CMMLU / Humaneval 等开闭源训练指标，指导数据优化方向； 7）维护数据版本管理与数据血缘追踪系统，确保训练数据的可复现性。

更新于 2026-04-30上海

大模型管线数据工程师（深圳/北京）

社招3年以上TEG公共技术

1.面向大模型预训练、后训练数据管线，设计并实现高效的数据处理平台。单管线上，通过算子编排形成数据计算、存储、一体化符合大模型训练的管线平台，平台级别上，通过存储、计算优化实现平台产能提升； 2.计算方向，提升平台级别计算效率，通过海量数据、任务、资源、合理化系统设计，抽象，对各个可编排算子的合并、拆分，达成易用性和计算性能平衡。对热点的算子，考虑单点优化以及公共服务的方式达到平台级性能提升； 3.存储方向，构建服务于整个预训练和后训练的dataset，优化海量存储管理与访问方案（对象存储分层、冷热分层、缓存策略、数据压缩与列式格式优化、读写并发控制、成本与生命周期管理）； 4.编写技术文档、最佳实践与性能评估报告，推动能力沉淀与工具链升级。

更新于 2025-10-14深圳

多模态大模型数据工程师

社招A123594

1、设计和开发大规模预训练数据处理链路，为基座模型预训练提供稳定、可靠的高质量数据处理能力，包括数据寻源、数据抓取/采集、数据解析（OCR、图片、网页）等工作内容； 2、设计和开发服务大模型预训练的数据平台，管理数据的元信息、血缘、存储治理等数据全生命周期要素；提供预训练数据的可视化、可观测能力；探索数据实验、数据发版的工程上限； 3、针对LLM、VLM等模型构建数据合成方案和框架，支持数据Scale等工作； 4、根据大模型训练数据特点，抽象并开发高效、可靠的数据加工框架，提升所有大模型算法工程师处理数据的工程效率。

更新于 2025-01-20北京

多模态大模型数据工程师-产品研发

社招A119200

更新于 2025-12-22上海