logo of pinduoduo

拼多多大模型预训练数据工程师

社招全职技术类地点:上海状态:招聘

任职要求


1)扎实的编程能力(Python必须,Java / Golang / Javascript 至少一种),良好的数据结构算法基础;
2)熟悉软件工程基本流程(构建 / 调试 / 测试 / CI);
3)对代码质量、系统设计有基本理解;
4)具备数据质量判断分析能力;
5)理解大模型训练基本流程;
6)了解 Transformer 结构与训练特性;
7)了解相关训练指标(Loss / Entr…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1)设计并实施大规模语料采集与处理系统,覆盖网页、书籍、代码、对话等多源异构数据;
2)制定数据清洗与去重等各类数据处理策略,提升语料多样性与质量;
3)开发数据质量评估与筛选体系,综合运用多维度方法对语料进行自动化打分与分级淘汰。包括困惑度过滤、质量分类器、内容安全过滤、数据配比与采样等;
4)主导合成数据的设计与生产,覆盖预训练增强与后训练两大场景,提升稀缺领域与长尾能力的数据覆盖,丰富推理、代码相关语料;
5)通过数据消融实验验证数据效果及数据配比策略,推动模型效果提升;
6)分析 MMLU / CMMLU / Humaneval 等开闭源训练指标,指导数据优化方向;
7)维护数据版本管理与数据血缘追踪系统,确保训练数据的可复现性。
包括英文材料
Python+
Java+
Go+
JavaScript+
数据结构+
算法+
CI+
还有更多 •••
相关职位

logo of pinduoduo
社招技术类

1. 设计并开发高质量大语言模型(LLM)预训练数据集,包括网页、文档、代码、对话、指令数据等多类型语料; 2. 搭建高效可扩展的数据处理与清洗流程,处理万亿级Token规模; 3. 研究与评估数据对模型性能(如对齐性、鲁棒性、多样性等)的影响,提出数据采样、加权、去偏等优化方法; 4. 与训练、评估等团队密切合作,支撑各阶段模型开发; 5. 跟踪最新开源数据构建技术与学术进展,推动数据层面的技术创新; 6. 参与构建闭环数据质量反馈与自动迭代体系。

更新于 2025-12-14上海
logo of tencent
社招3年以上TEG公共技术

1.面向大模型预训练、后训练数据管线,设计并实现高效的数据处理平台。单管线上,通过算子编排形成数据计算、存储、一体化符合大模型训练的管线平台,平台级别上,通过存储、计算优化实现平台产能提升; 2.计算方向,提升平台级别计算效率,通过海量数据、任务、资源、合理化系统设计,抽象,对各个可编排算子的合并、拆分,达成易用性和计算性能平衡。对热点的算子,考虑单点优化以及公共服务的方式达到平台级性能提升; 3.存储方向,构建服务于整个预训练和后训练的dataset,优化海量存储管理与访问方案(对象存储分层、冷热分层、缓存策略、数据压缩与列式格式优化、读写并发控制、成本与生命周期管理); 4.编写技术文档、最佳实践与性能评估报告,推动能力沉淀与工具链升级。

更新于 2025-10-14深圳
logo of bytedance
社招A123594

1、设计和开发大规模预训练数据处理链路,为基座模型预训练提供稳定、可靠的高质量数据处理能力,包括数据寻源、数据抓取/采集、数据解析(OCR、图片、网页)等工作内容; 2、设计和开发服务大模型预训练的数据平台,管理数据的元信息、血缘、存储治理等数据全生命周期要素;提供预训练数据的可视化、可观测能力;探索数据实验、数据发版的工程上限; 3、针对LLM、VLM等模型构建数据合成方案和框架,支持数据Scale等工作; 4、根据大模型训练数据特点,抽象并开发高效、可靠的数据加工框架,提升所有大模型算法工程师处理数据的工程效率。

更新于 2025-01-20北京
logo of bytedance
社招A119200

1、设计和开发大规模预训练数据处理链路,为基座模型预训练提供稳定、可靠的高质量数据处理能力,包括数据寻源、数据抓取/采集、数据解析(OCR、图片、网页)等工作内容; 2、设计和开发服务大模型预训练的数据平台,管理数据的元信息、血缘、存储治理等数据全生命周期要素;提供预训练数据的可视化、可观测能力;探索数据实验、数据发版的工程上限; 3、针对LLM、VLM等模型构建数据合成方案和框架,支持数据Scale等工作; 4、根据大模型训练数据特点,抽象并开发高效、可靠的数据加工框架,提升所有大模型算法工程师处理数据的工程效率。

更新于 2025-12-22上海