logo of baidu

百度大模型数据算法工程师(J82724)

社招全职ACG地点:北京状态:招聘

任职要求


-计算机视觉CV/自然语言处理NLP相关专业。有相关算法及项目经验,对大模型训练Pipline熟悉的优先;有数据清洗、挖掘、合成等相关经验的优先;对大模型后训练(SFT等)过程了解的优先
- 熟悉计算机视觉/自然语言处理相关算法,对深度学习算法有深刻理解,有过顶会论文发表,参加过CV/NLP领域有影响力的竞赛并取得较好名次优先
-熟悉主流深度学习框架,编程能力强(PythonC++)
-有大数据处理经验,熟悉SparkRay等分布式工具优先

工作职责


-负责多模态数据解析、知识加工、RAG等算法的实现,针对落地场景中遇到的实际问题进行算法改进与效果提升
-负责大模型(语言模型、多模态模型、CV大模型等)后预训练/微调/对齐等场景的数据工程;根据项目需求,研发训练数据处理的算子和Pipeline,以用于模型的训练和效果验证
-作为大模型技术专家,为ToB企业提供大模型服务,尤其是与数据相关的行业know-how
-对前沿技术和需求敏锐洞察,通过技术创新推动产品成长
包括英文材料
OpenCV+
NLP+
算法+
大模型+
SFT+
深度学习+
Python+
C+++
Spark+
Ray+
相关职位

logo of baidu
社招ACG

-负责百度知识管理平台的基础服务架构、相关组件与模块设计与开发 -提升百度知识管理平台商业化服务稳定性,确保业务高可用 -构建百度知识管理平台私有云/公有云交付能力 -提升交付质量与效率,支持标准化、规模化大客户项目落地 -参与百度知识管理平台商业化业务开放能力建设;满足各类第三方生态接入,满足客户的二次开发需求

更新于 2025-04-10
logo of ximalaya
实习

岗位职责: 1. 参与⾳频理解的算法调研、落地应⽤、效果调优; 2. 负责⾳频理解技术在业务场景的适配和落地; 3. 将合适的⼯作成果最终形成论⽂发表;

更新于 2025-01-06
logo of tencent
社招2年以上WXG技术

1.设计训练数据全生命周期管理方案,涵盖元数据与血缘管理、质量监控(异常检测/置信校准)、自动化评估体系,为模型训练提供稳定、可靠的高质量数据; 2.探索大模型强化数据及SFT数据合成路径,推动大模型中数据价值验证方法论的建设与落地; 3.抽象并开发高效、可靠的数据加工框架,全面管理数据,提供训练数据的可视化、可观测能力;提升训练数据治理的工程效率; 4.不断跟进业界前沿数据算法并进行落地,提高数据算法效果和效率,为大模型储备高质量的数据资源。

更新于 2025-07-30
logo of xpeng
校招

1. 负责自动驾驶多模态数据的合成技术研发与工程实现,构建高质量、多样化的仿真与合成数据,提升训练数据的覆盖场景丰富度与边界案例覆盖率,满足端到端自动驾驶模型的训练需求; 2. 深入分析自动驾驶训练数据的特征与分布规律,运用统计建模、机器学习与因果推理方法挖掘数据中的潜在问题(如样本偏差、长尾分布、标签错误、对抗样本等); 3. 研究并开发面向自动驾驶场景的高效自动标签算法,基于规则算法和大模型数据挖掘方法,提升为大模型pretrain,sft,RL阶段提供高质量数据; 4. 构建端到端的数据质量评估与过滤体系,设计适用于自动驾驶任务的数据质量指标(如场景完整性、数据分布合理性、时序一致性、合规性等),开发自动化检测工具链,对标签数据、合成数据开展模型训练,提升模型在安全性,效率,合规,安心感等方面的表现; 5. 持续跟踪自动驾驶与大模型的前沿数据技术,推动数据合成、自动标注、质量评估等核心算法在实际工程系统中的部署与落地。

更新于 2025-07-01