logo of baidu

百度大模型数据策略工程师(J93542)

实习兼职ACG地点:北京状态:招聘

任职要求


-计算机/统计/数学等相关专业在读,编程与机器学习基础扎实,熟悉Python
-了解PyTorch/Transformers等训练生态,具备基础数据管道与训练脚本编写能力;熟悉Linux/Git/SQL,理解并行/分布式数据处理
-理解对齐与偏好学习流程(SFT、RM、DPO/PPO/GRPO),能进行基础的数据处理、合成、抽样与消融实验,并规范记录确保可复现
-具备评测与实验设计基础:能构建小型评测集,完成离线评测/可视化/结果分析,形成面向策略的结论
-具备良好的沟通与协作能力,自驱学习,优先考虑可连续实习3个月以上、每周到岗4-5天者
-有多模态(图像/视频/音频与文本对齐数据构建)、代码(编译、单测、沙箱执行校验)、工具调用(函数调用轨迹合成与纠错、端到端RL)经验之一加分

工作职责


-参与大模型数据策略与数据迭代(文本/多模态/代码),负责大规模数据构建与合成,支撑预训练/对齐效果
-协助多模态、代码与工具调用数据的构建,进行包括分布式的清洗、合成、近重复/噪声检测与去重,建立难例库与反馈闭环,持续提升数据质量与密度
-参与数据质量评估与筛选算法的实现:低质过滤,质量评分、LLM判别与复核等;针对代码与工具调用场景,引入编译/单测/沙箱执行/参数一致性校验
-支持对齐与偏好学习数据,配合消融实验及评测指标分析,输出采样/准入/退场/权重等数据策略并推动落地
包括英文材料
机器学习+
Python+
PyTorch+
脚本+
Linux+
Git+
SQL+
SFT+
相关职位

logo of baidu
社招ACG

-负责大模型数据合成相关工作,包括技术调研、数据生成与处理、模型训练及效果评估 -负责大规模文本、多模态数据的处理与清洗工作,优化数据质量 -支持大模型在实际业务场景中的应用落地,负责平台客户的场景建模任务,将模型算法落地到客户的业务场景中 -与其他角色和团队合作,共同完成相关项目需求

更新于 2025-03-03
logo of mi
实习

参与大模型数据清洗及处理技术的研发与优化,包括但不限于: 1.大模型数据质量的持续提升改进与实现; 2.参与数据主题分类模型的构建 3.VLM数据的合成与生产的协同优化; 4.提示工程(Prompt Engineering)的探索 5.构建和评测数据的质量及评估的方法及评测集的构建 6.跟进学术界与工业界最新进展。

更新于 2025-09-09
logo of baidu
社招ACG

-负责大模型数据合成相关工作,包括技术调研、数据生成与处理、模型训练及效果评估 -负责大规模文本、多模态数据的处理与清洗工作,优化数据质量 -支持大模型在实际业务场景中的应用落地,负责平台客户的场景建模任务,将模型算法落地到客户的业务场景中 -与其他角色和团队合作,共同完成相关项目需求

更新于 2025-03-04
logo of bytedance
社招3年以上A113004

1、参与部门画像体系建设,构建高价值可复用的通用画像能力; 2、参与策略模型和数据链路建设,沉淀数据资产,为用户体验优化、内容生态运营赋能; 3、参与构建数智化大模型解决方案,综合运用CT/SFT/RAG/Agent等技术解决实际业务问题; 4、跟踪大数据、知识图谱、大模型等领域的前沿技术进展。

更新于 2024-08-29