logo of baidu

百度千帆大模型数据策略工程师(J83077)

社招全职ACG地点:北京 | 上海状态:招聘

任职要求


-熟练掌握 Python/GO 中至少一种编程语言,具备良好的编码习惯和常用设计模式的理解
-具备大规模的预训练/指令/偏好数据的收集、清洗、构建经验,有大模型数据合成、图文多模态数据处理经验者优先
-熟悉大模型评测方式和各类评估指标,对如何准确、高效地评估大模型各类能力有实践经验
-熟悉大模型调优,有开源大模型的Pretrain/SFT等训练经验,有多模态训练/调优经验的优先
-熟练使用DockerKubernetes相关生态和工具,熟悉Spark等大规模数据处理框架者优先
-具备良好的沟通以及团队合作能力,拥有较强的学习意愿和能力,能够快速掌握工作所需的知识和技能

工作职责


-负责大模型数据合成相关工作,包括技术调研、数据生成与处理、模型训练及效果评估
-负责大规模文本、多模态数据的处理与清洗工作,优化数据质量
-支持大模型在实际业务场景中的应用落地,负责平台客户的场景建模任务,将模型算法落地到客户的业务场景中
-与其他角色和团队合作,共同完成相关项目需求
包括英文材料
Python+
Go+
编程规范+
设计模式+
大模型+
SFT+
Docker+
Kubernetes+
Spark+
相关职位

logo of baidu
实习ACG

-参与Qianfan-VL多模态模型训练工作,负责图像、视频与文本模态的对齐和指令微调数据构造与清洗,模型实验 -构建优质代码数据语料库,通过检索生成结合执行环境自动验证的方式构造合成数据,通过持续预训练、强化学习等方式训练精专代码大模型 -跟进并探索前沿的模型范式,研究样本质量/数量对模型效果的影响,摸索更高效、低成本的蒸馏方案,研究RL在特定需求场景下的适用性 -深刻理解模型训练、推理的性能瓶颈,通过底层优化提升训练、推理性能 -研究方向(新增数据策略方向): 多模态大模型预训练/后训练数据清洗与合成 多模态推理场景强化 多模态教育、解题场景增强 复杂指令遵循 Agent场景数据构建 复杂场景下的代码提升

更新于 2025-08-21
logo of baidu
社招ACG

-协助进行大模型开发平台的需求分析、竞品调研、需求文档撰写,并跟进开发、测试及上线 -参与产研、运营多方紧密协同,推进各事项的稳步执行 -编写千帆大模型平台相关产品介绍、实践文档等材料 -跟进平台用户咨询及使用问题,并协调周围角色进行解决

更新于 2025-07-10
logo of baidu
实习ACG

-协助进行大模型开发平台的需求分析、竞品调研、需求文档撰写,并跟进开发、测试及上线 -参与产研、运营多方紧密协同,推进各事项的稳步执行 -编写千帆大模型平台相关产品介绍、实践文档等材料 -跟进平台用户咨询及使用问题,并协调周围角色进行解决

更新于 2025-07-10
logo of baidu
实习ACG

-关注大模型在应用中的模型效果问题,能深入分析提炼评价体系,并与算法策略团队推进模型效果迭代 -调研并分析大模型落地应用情况,根据客户输入及数据分析提炼效果优化点,主动发现并抽象问题 -辅助建设并持续完善大模型在具体场景的效果评估体系,支持高质量数据集建设,推进大模型效果持续提升 -参与设计大模型在常见行业领域的应用范式,总结最佳实践,帮助客户快速提升大模型效果

更新于 2025-07-01