logo of pinduoduo

拼多多大模型预训练数据工程师

社招全职技术类地点:上海状态:招聘

任职要求


1. 计算机科学、计算语言学、数学、物理等相关专业硕士或以上学历,或具备同等工程/研究背景;
2. 精通至少一种编程语言(Python / C++ / Scala等),具备优秀的编程和工程实现能力;
3. 熟悉常用数据处理框架(如SparkRay、Dask等)与分布式系统;
4. 对自然语言处理、机器学习基础知识有良好理解;
5. 良好的问题分析能力与沟通协作能力,热爱技术与开源文化,富有责任心。

加分项
1. 有万亿Token…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 设计并开发高质量大语言模型(LLM)预训练数据集,包括网页、文档、代码、对话、指令数据等多类型语料;
2. 搭建高效可扩展的数据处理与清洗流程,处理万亿级Token规模;
3. 研究与评估数据对模型性能(如对齐性、鲁棒性、多样性等)的影响,提出数据采样、加权、去偏等优化方法;
4. 与训练、评估等团队密切合作,支撑各阶段模型开发;
5. 跟踪最新开源数据构建技术与学术进展,推动数据层面的技术创新;
6. 参与构建闭环数据质量反馈与自动迭代体系。
包括英文材料
学历+
Python+
C+++
Scala+
Spark+
Ray+
还有更多 •••
相关职位

logo of pinduoduo
社招技术类

1)设计并实施大规模语料采集与处理系统,覆盖网页、书籍、代码、对话等多源异构数据; 2)制定数据清洗与去重等各类数据处理策略,提升语料多样性与质量; 3)开发数据质量评估与筛选体系,综合运用多维度方法对语料进行自动化打分与分级淘汰。包括困惑度过滤、质量分类器、内容安全过滤、数据配比与采样等; 4)主导合成数据的设计与生产,覆盖预训练增强与后训练两大场景,提升稀缺领域与长尾能力的数据覆盖,丰富推理、代码相关语料; 5)通过数据消融实验验证数据效果及数据配比策略,推动模型效果提升; 6)分析 MMLU / CMMLU / Humaneval 等开闭源训练指标,指导数据优化方向; 7)维护数据版本管理与数据血缘追踪系统,确保训练数据的可复现性。

更新于 2026-04-30上海
logo of tencent
社招3年以上TEG公共技术

1.面向大模型预训练、后训练数据管线,设计并实现高效的数据处理平台。单管线上,通过算子编排形成数据计算、存储、一体化符合大模型训练的管线平台,平台级别上,通过存储、计算优化实现平台产能提升; 2.计算方向,提升平台级别计算效率,通过海量数据、任务、资源、合理化系统设计,抽象,对各个可编排算子的合并、拆分,达成易用性和计算性能平衡。对热点的算子,考虑单点优化以及公共服务的方式达到平台级性能提升; 3.存储方向,构建服务于整个预训练和后训练的dataset,优化海量存储管理与访问方案(对象存储分层、冷热分层、缓存策略、数据压缩与列式格式优化、读写并发控制、成本与生命周期管理); 4.编写技术文档、最佳实践与性能评估报告,推动能力沉淀与工具链升级。

更新于 2025-10-14深圳
logo of bytedance
社招A123594

1、设计和开发大规模预训练数据处理链路,为基座模型预训练提供稳定、可靠的高质量数据处理能力,包括数据寻源、数据抓取/采集、数据解析(OCR、图片、网页)等工作内容; 2、设计和开发服务大模型预训练的数据平台,管理数据的元信息、血缘、存储治理等数据全生命周期要素;提供预训练数据的可视化、可观测能力;探索数据实验、数据发版的工程上限; 3、针对LLM、VLM等模型构建数据合成方案和框架,支持数据Scale等工作; 4、根据大模型训练数据特点,抽象并开发高效、可靠的数据加工框架,提升所有大模型算法工程师处理数据的工程效率。

更新于 2025-01-20北京
logo of bytedance
社招A119200

1、设计和开发大规模预训练数据处理链路,为基座模型预训练提供稳定、可靠的高质量数据处理能力,包括数据寻源、数据抓取/采集、数据解析(OCR、图片、网页)等工作内容; 2、设计和开发服务大模型预训练的数据平台,管理数据的元信息、血缘、存储治理等数据全生命周期要素;提供预训练数据的可视化、可观测能力;探索数据实验、数据发版的工程上限; 3、针对LLM、VLM等模型构建数据合成方案和框架,支持数据Scale等工作; 4、根据大模型训练数据特点,抽象并开发高效、可靠的数据加工框架,提升所有大模型算法工程师处理数据的工程效率。

更新于 2025-12-22上海