logo of baidu

百度大模型数据策略工程师(J82293)

社招全职ACG地点:北京 | 上海状态:招聘

任职要求


-熟练掌握 Python/GO 中至少一种编程语言,具备良好的编码习惯和常用设计模式的理解
-具备大规模的预训练/指令/偏好数据的收集、清洗、构建经验,有大模型数据合成、图文多模态数据处理经验者优先
-熟悉大模型评测方式和各类评估指标,对如何准确、高效地评估大模型各类能力有实践经验
-熟悉大模型调优,有开源大模型的Pretrain/SFT等训练经验,有多模态训练/调优经验的优先
-熟练使用DockerKubernetes相关生态和工具,熟悉Spark等大规模数据处理框架者优先
-具备良好的沟通以及团队合作能力,拥有较强的学习意愿和能力,能够快速掌握工作所需的知识和技能

工作职责


-负责大模型数据合成相关工作,包括技术调研、数据生成与处理、模型训练及效果评估
-负责大规模文本、多模态数据的处理与清洗工作,优化数据质量
-支持大模型在实际业务场景中的应用落地,负责平台客户的场景建模任务,将模型算法落地到客户的业务场景中
-与其他角色和团队合作,共同完成相关项目需求
包括英文材料
Python+
Go+
编程规范+
设计模式+
大模型+
SFT+
Docker+
Kubernetes+
Spark+
相关职位

logo of baidu
社招MEG

-参与Feed推荐系统核心模块研发,设计并持续优化互动推荐算法,提高推荐准确性和个性化,增强用户互动体验。 -通过互动数据分析挖掘用户行为规律,制定并调整推荐策略,提升推荐效果。 -深入理解评论生成、精调评论生成模型、prompt优化,并与跨部门团队紧密合作,将推荐算法与业务需求结合,优化互动区产品体验。 -关注技术前沿,引入新技术,推动推荐算法的创新与优化。

更新于 2025-01-20
logo of mi
实习

参与大模型数据清洗及处理技术的研发与优化,包括但不限于: 1.大模型数据质量的持续提升改进与实现; 2.参与数据主题分类模型的构建 3.VLM数据的合成与生产的协同优化; 4.提示工程(Prompt Engineering)的探索 5.构建和评测数据的质量及评估的方法及评测集的构建 6.跟进学术界与工业界最新进展。

更新于 2025-09-09
logo of baidu
实习ACG

-参与大模型数据策略与数据迭代(文本/多模态/代码),负责大规模数据构建与合成,支撑预训练/对齐效果 -协助多模态、代码与工具调用数据的构建,进行包括分布式的清洗、合成、近重复/噪声检测与去重,建立难例库与反馈闭环,持续提升数据质量与密度 -参与数据质量评估与筛选算法的实现:低质过滤,质量评分、LLM判别与复核等;针对代码与工具调用场景,引入编译/单测/沙箱执行/参数一致性校验 -支持对齐与偏好学习数据,配合消融实验及评测指标分析,输出采样/准入/退场/权重等数据策略并推动落地

更新于 2025-09-12
logo of baidu
社招ACG

-负责大模型数据合成相关工作,包括技术调研、数据生成与处理、模型训练及效果评估 -负责大规模文本、多模态数据的处理与清洗工作,优化数据质量 -支持大模型在实际业务场景中的应用落地,负责平台客户的场景建模任务,将模型算法落地到客户的业务场景中 -与其他角色和团队合作,共同完成相关项目需求

更新于 2025-03-04