百度大模型数据策略工程师(J82293)
社招全职ACG地点:北京 | 上海状态:招聘
任职要求
-熟练掌握 Python/GO 中至少一种编程语言,具备良好的编码习惯和常用设计模式的理解 -具备大规模的预训练/指令/偏好数据的收集、清洗、构建经验,有大模型数据合成、图文多模态数据处理经验者优先 -熟悉大模型评测方式和各类评估指标,对如何准确、高效地评估大模型各类能力有实践经验 -熟…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
-负责大模型数据合成相关工作,包括技术调研、数据生成与处理、模型训练及效果评估 -负责大规模文本、多模态数据的处理与清洗工作,优化数据质量 -支持大模型在实际业务场景中的应用落地,负责平台客户的场景建模任务,将模型算法落地到客户的业务场景中 -与其他角色和团队合作,共同完成相关项目需求
包括英文材料
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
编程规范+
[英文] Google Style Guides
https://google.github.io/styleguide/
Every major open-source project has its own style guide: a set of conventions (sometimes arbitrary) about how to write code for that project. It is much easier to understand a large codebase when all the code in it is in a consistent style.
设计模式+
https://liaoxuefeng.com/books/java/design-patterns/index.html
设计模式,即Design Patterns,是指在软件设计中,被反复使用的一种代码设计经验。使用设计模式的目的是为了可重用代码,提高代码的可扩展性和可维护性。
[英文] Design Patterns
https://refactoring.guru/design-patterns
Design patterns are typical solutions to common problems in software design. Each pattern is like a blueprint that you can customize to solve a particular design problem in your code.
https://www.youtube.com/watch?v=NU_1StN5Tkk
Design Patterns tutorial explained in simple words using real-world examples.
还有更多 •••
相关职位
社招MEG
-参与Feed推荐系统核心模块研发,设计并持续优化互动推荐算法,提高推荐准确性和个性化,增强用户互动体验。 -通过互动数据分析挖掘用户行为规律,制定并调整推荐策略,提升推荐效果。 -深入理解评论生成、精调评论生成模型、prompt优化,并与跨部门团队紧密合作,将推荐算法与业务需求结合,优化互动区产品体验。 -关注技术前沿,引入新技术,推动推荐算法的创新与优化。
更新于 2025-01-20北京|上海
实习
参与大模型数据清洗及处理技术的研发与优化,包括但不限于: 1.大模型数据质量的持续提升改进与实现; 2.参与数据主题分类模型的构建 3.VLM数据的合成与生产的协同优化; 4.提示工程(Prompt Engineering)的探索 5.构建和评测数据的质量及评估的方法及评测集的构建 6.跟进学术界与工业界最新进展。
更新于 2025-09-09北京
实习ACG
- 参与大模型数据策略与数据迭代(文本/多模态/代码),负责大规模数据构建与合成,支撑预训练/对齐效果 - 协助多模态、代码与工具调用数据的构建,进行包括分布式的清洗、合成、近重复/噪声检测与去重,建立难例库与反馈闭环,持续提升数据质量与密度 - 参与数据质量评估与筛选算法的实现:低质过滤,质量评分、LLM判别与复核等;针对代码与工具调用场景,引入编译/单测/沙箱执行/参数一致性校验 - 支持对齐与偏好学习数据,配合消融实验及评测指标分析,输出采样/准入/退场/权重等数据策略并推动落地
更新于 2025-12-05北京