logo of baidu

百度大模型数据算法工程师(J82724)

社招全职ACG地点:北京状态:招聘

任职要求


-计算机视觉CV/自然语言处理NLP相关专业。有相关算法及项目经验,对大模型训练Pipline熟悉的优先;有数据清洗、挖掘、合成等相关经验的优先;对大模型后训练(SFT等)过程了解的优先
- 熟悉计算机视觉/自然语言处理相关…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


-负责多模态数据解析、知识加工、RAG等算法的实现,针对落地场景中遇到的实际问题进行算法改进与效果提升
-负责大模型(语言模型、多模态模型、CV大模型等)后预训练/微调/对齐等场景的数据工程;根据项目需求,研发训练数据处理的算子和Pipeline,以用于模型的训练和效果验证
-作为大模型技术专家,为ToB企业提供大模型服务,尤其是与数据相关的行业know-how
-对前沿技术和需求敏锐洞察,通过技术创新推动产品成长
包括英文材料
OpenCV+
NLP+
算法+
大模型+
SFT+
还有更多 •••
相关职位

logo of baidu
社招ACG

-负责百度知识管理平台的基础服务架构、相关组件与模块设计与开发 -提升百度知识管理平台商业化服务稳定性,确保业务高可用 -构建百度知识管理平台私有云/公有云交付能力 -提升交付质量与效率,支持标准化、规模化大客户项目落地 -参与百度知识管理平台商业化业务开放能力建设;满足各类第三方生态接入,满足客户的二次开发需求

更新于 2025-04-10北京
logo of antgroup
社招3年以上技术类-开发

大模型数据处理与优化 1. 构建从数据采集、清洗、评估、消融归因的全流程数据框架,辅助模型能力稳步提升; 2. 设计和优化PB级多模态多领域训练数据的解析、理解、筛选、改写、合成体系; 3. 设计面向医疗领域的结构化数据处理流程,沉淀医学权威知识库,解决医疗模型幻觉问题; 4. 训练数据提取、过滤、改写、分类等模型。 高质量数据生产和评估 1. 基于业务场景,设计高质量高效率的数据生产流程,交付对模型有增益的数据; 2. 训练预标注和数据质控模型,不断提升数据生产效率和交付质量。

更新于 2025-11-05北京|杭州
logo of ximalaya
实习

岗位职责: 1. 参与⾳频理解的算法调研、落地应⽤、效果调优; 2. 负责⾳频理解技术在业务场景的适配和落地; 3. 将合适的⼯作成果最终形成论⽂发表;

更新于 2025-01-06上海
logo of tencent
社招2年以上WXG技术

1.设计训练数据全生命周期管理方案,涵盖元数据与血缘管理、质量监控(异常检测/置信校准)、自动化评估体系,为模型训练提供稳定、可靠的高质量数据; 2.探索大模型强化数据及SFT数据合成路径,推动大模型中数据价值验证方法论的建设与落地; 3.抽象并开发高效、可靠的数据加工框架,全面管理数据,提供训练数据的可视化、可观测能力;提升训练数据治理的工程效率; 4.不断跟进业界前沿数据算法并进行落地,提高数据算法效果和效率,为大模型储备高质量的数据资源。

更新于 2025-07-30广州