logo of baidu

百度大模型数据策略工程师(J93542)

实习兼职ACG地点:北京状态:招聘

任职要求


-计算机/统计/数学等相关专业在读,编程与机器学习基础扎实,熟悉Python
-了解PyTorch/Transformers等训练生态,具备基础数据管道与训练脚本编写能力;熟悉Linux/Git/SQL,理解并行/分布式数据处理
-理解对齐与偏好学习流程(SFT、RM、DPO/PPO/GRPO),能进行基础的数据处理、合成、抽样与消融实验,并…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


- 参与大模型数据策略与数据迭代(文本/多模态/代码),负责大规模数据构建与合成,支撑预训练/对齐效果
- 协助多模态、代码与工具调用数据的构建,进行包括分布式的清洗、合成、近重复/噪声检测与去重,建立难例库与反馈闭环,持续提升数据质量与密度
- 参与数据质量评估与筛选算法的实现:低质过滤,质量评分、LLM判别与复核等;针对代码与工具调用场景,引入编译/单测/沙箱执行/参数一致性校验
- 支持对齐与偏好学习数据,配合消融实验及评测指标分析,输出采样/准入/退场/权重等数据策略并推动落地
包括英文材料
机器学习+
Python+
PyTorch+
脚本+
还有更多 •••
相关职位

logo of baidu
社招ACG

-负责大模型数据合成相关工作,包括技术调研、数据生成与处理、模型训练及效果评估 -负责大规模文本、多模态数据的处理与清洗工作,优化数据质量 -支持大模型在实际业务场景中的应用落地,负责平台客户的场景建模任务,将模型算法落地到客户的业务场景中 -与其他角色和团队合作,共同完成相关项目需求

更新于 2025-03-04北京|上海
logo of baidu
社招ACG

-负责大模型数据合成相关工作,包括技术调研、数据生成与处理、模型训练及效果评估 -负责大规模文本、多模态数据的处理与清洗工作,优化数据质量 -支持大模型在实际业务场景中的应用落地,负责平台客户的场景建模任务,将模型算法落地到客户的业务场景中 -与其他角色和团队合作,共同完成相关项目需求

更新于 2025-03-03北京|上海
logo of mi
实习

参与大模型数据清洗及处理技术的研发与优化,包括但不限于: 1.大模型数据质量的持续提升改进与实现; 2.参与数据主题分类模型的构建 3.VLM数据的合成与生产的协同优化; 4.提示工程(Prompt Engineering)的探索 5.构建和评测数据的质量及评估的方法及评测集的构建 6.跟进学术界与工业界最新进展。

更新于 2025-09-09北京
logo of deepseek
实习全职

1.整体目标:提升模型在 Agent 方向的专业能力。围绕代码生成、通用agent等场景,设计高质量的 Agent 训练语料;构建端到端的测试用例,从可用性、代码规范、工程质量、任务完成度等多维度评估模型表现; 2.设计并构造高质量的 Agent 评测数据集,能够精准区分不同模型的能力边界;针对 Agent 的规划、工具调用、多轮交互、指令跟随等核心能力,构建多样化的测试场景与用例;持续迭代评测标准,确保评测体系能够跟进业界前沿并反映真实用户需求; 3.探索不同数据标注策略对模型 Agent 能力的影响路径;参与数据与强化学习(RL)结合过程中的实验设计,研究模型能力的可控性检测方法,为训练策略优化提供数据侧支撑; 4.基于深度使用 Claude Code、OpenClaw 等主流 Agent 产品的实践经验,系统性分析当前模型的能力短板与失败模式;针对性地构建补齐数据与边界测试用例,推动模型在弱项上的持续迭代与突破。

更新于 2026-05-22杭州|北京