logo of baidu

百度视觉理解大模型训练专家(J93340)

社招全职ACG地点:北京状态:招聘

任职要求


-硕士及以上学历计算机视觉/AI/机器学习相关背景
-有SOTA VLM模型训练经验,熟悉ViT、Swin、CLIP、BLI…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


-研发并优化视觉大模型(ViT、CLIP、DiT 等),推进大规模预训练与跨模态对齐
-优化模型训练与推理性能(分布式并行、量化、蒸馏等)
-将前沿模型成果落地教育、零售等行业应用场景
-依托万亿级跨模态数据与超大规模 GPU/TPU 集群,助力行业领先模型训练
-深度参与 VLM/MLLM 架构设计、预训练与优化,推动视觉理解与生成的技术突破
包括英文材料
学历+
OpenCV+
机器学习+
还有更多 •••
相关职位

logo of baidu
社招ACG

-研发并优化视觉大模型(ViT、CLIP、DiT 等),推进大规模预训练与跨模态对齐 -优化模型训练与推理性能(分布式并行、量化、蒸馏等) -将前沿模型成果落地教育、零售等行业应用场景 -依托万亿级跨模态数据与超大规模 GPU/TPU 集群,助力行业领先模型训练 -深度参与 VLM/MLLM 架构设计、预训练与优化,推动视觉理解与生成的技术突破

更新于 2025-09-10北京
logo of bytedance
社招A52622

1、基于视觉理解大模型打造的视频通话功能做相关的数据建设,负责智能对话类产品的场景构建、数据采集、风格制定,对结合视觉的对话类数据生产的质量和效率负责,紧密协同模型效果迭代; 2、依据视觉理解模型的能力场景,制定并持续优化数据生产的标准和流程,积极探索数据生产或模型效果提升的实验,获得客观严谨的结论并能优化数据生产流程; 3、能够用多种手段为标注工作提效,包括并不限于工具优化、PE撰写、标注方式创新等; 4、与算法团队、产品团队密切协作,深度理解背后的模型原理、算法逻辑,积极提供有价值的数据构造或生产的策略及建议; 5、输出与带教,协助团队其他非技术向员工,提升对多模态大模型的了解程度、教授实际应用技巧等,以辅助团队更好完成业务目标。

更新于 2025-02-19北京
logo of antgroup
社招2年以上技术类-算法

1、研究多模态模型预训练新范式,突破多模态对齐、跨模态推理、多模态数据挖掘和合成、效果评测等关键技术难题; 2、打造行业领先的算法能力:如视频问答、音视频交互等; 3、探索视觉理解大模型与音视频交互大模型技术的深度融合路径,构建支持图像、视频、语音多模态理解的通用大模型架构和大规模训练; 4、支持音视频交互推理加速框架建设,构建完善的音视频交互大模型数据链路,探索和细化不同的音视频交互模型的评估维度、方法和指标,落地评估系统,支撑基础大模型迭代和上线; 5、关注多模态/NLP/语音等方向的前沿技术,及时将新技术应用到产品中。

更新于 2025-12-23杭州
logo of kuaishou
社招3-5年D13918

1、大规模多模态数据理解:负责海量多模态数据的打标分类、语义分割、检测、OCR文字识别、Caption生成等工作,提升数据的可用性与质量; 2、数据 pipeline 建设:负责多模态大模型训练数据的构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,并设计数据飞轮闭环,将用户交互数据反哺模型迭代; 3、制订长期规划:制定并实施大模型数据建设的长期发展规划,持续推动技术迭代与业务应用场景的拓展。

更新于 2025-07-31北京