百度大模型数据算法工程师(J82724)
社招全职ACG地点:北京状态:招聘
任职要求
-计算机视觉CV/自然语言处理NLP相关专业。有相关算法及项目经验,对大模型训练Pipline熟悉的优先;有数据清洗、挖掘、合成等相关经验的优先;对大模型后训练(SFT等)过程了解的优先 - 熟悉计算机视觉/自然语言处理相关…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
-负责多模态数据解析、知识加工、RAG等算法的实现,针对落地场景中遇到的实际问题进行算法改进与效果提升 -负责大模型(语言模型、多模态模型、CV大模型等)后预训练/微调/对齐等场景的数据工程;根据项目需求,研发训练数据处理的算子和Pipeline,以用于模型的训练和效果验证 -作为大模型技术专家,为ToB企业提供大模型服务,尤其是与数据相关的行业know-how -对前沿技术和需求敏锐洞察,通过技术创新推动产品成长
包括英文材料
OpenCV+
https://learnopencv.com/getting-started-with-opencv/
At LearnOpenCV we are on a mission to educate the global workforce in computer vision and AI.
https://opencv.org/university/free-opencv-course/
This free OpenCV course will teach you how to manipulate images and videos, and detect objects and faces, among other exciting topics in just about 3 hours.
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
SFT+
https://cameronrwolfe.substack.com/p/understanding-and-using-supervised
Understanding how SFT works from the idea to a working implementation...
还有更多 •••
相关职位
社招ACG
-负责百度知识管理平台的基础服务架构、相关组件与模块设计与开发 -提升百度知识管理平台商业化服务稳定性,确保业务高可用 -构建百度知识管理平台私有云/公有云交付能力 -提升交付质量与效率,支持标准化、规模化大客户项目落地 -参与百度知识管理平台商业化业务开放能力建设;满足各类第三方生态接入,满足客户的二次开发需求
更新于 2025-04-10北京
社招3年以上技术类-开发
大模型数据处理与优化 1. 构建从数据采集、清洗、评估、消融归因的全流程数据框架,辅助模型能力稳步提升; 2. 设计和优化PB级多模态多领域训练数据的解析、理解、筛选、改写、合成体系; 3. 设计面向医疗领域的结构化数据处理流程,沉淀医学权威知识库,解决医疗模型幻觉问题; 4. 训练数据提取、过滤、改写、分类等模型。 高质量数据生产和评估 1. 基于业务场景,设计高质量高效率的数据生产流程,交付对模型有增益的数据; 2. 训练预标注和数据质控模型,不断提升数据生产效率和交付质量。
更新于 2025-11-05北京|杭州
