百度视觉理解大模型训练专家(J93340)
任职要求
-硕士及以上学历,计算机视觉/AI/机器学习相关背景 -有SOTA VLM模型训练经验,熟悉ViT、Swin、CLIP、BLI…
工作职责
-研发并优化视觉大模型(ViT、CLIP、DiT 等),推进大规模预训练与跨模态对齐 -优化模型训练与推理性能(分布式并行、量化、蒸馏等) -将前沿模型成果落地教育、零售等行业应用场景 -依托万亿级跨模态数据与超大规模 GPU/TPU 集群,助力行业领先模型训练 -深度参与 VLM/MLLM 架构设计、预训练与优化,推动视觉理解与生成的技术突破
-研发并优化视觉大模型(ViT、CLIP、DiT 等),推进大规模预训练与跨模态对齐 -优化模型训练与推理性能(分布式并行、量化、蒸馏等) -将前沿模型成果落地教育、零售等行业应用场景 -依托万亿级跨模态数据与超大规模 GPU/TPU 集群,助力行业领先模型训练 -深度参与 VLM/MLLM 架构设计、预训练与优化,推动视觉理解与生成的技术突破
1、基于视觉理解大模型打造的视频通话功能做相关的数据建设,负责智能对话类产品的场景构建、数据采集、风格制定,对结合视觉的对话类数据生产的质量和效率负责,紧密协同模型效果迭代; 2、依据视觉理解模型的能力场景,制定并持续优化数据生产的标准和流程,积极探索数据生产或模型效果提升的实验,获得客观严谨的结论并能优化数据生产流程; 3、能够用多种手段为标注工作提效,包括并不限于工具优化、PE撰写、标注方式创新等; 4、与算法团队、产品团队密切协作,深度理解背后的模型原理、算法逻辑,积极提供有价值的数据构造或生产的策略及建议; 5、输出与带教,协助团队其他非技术向员工,提升对多模态大模型的了解程度、教授实际应用技巧等,以辅助团队更好完成业务目标。
1、研究多模态模型预训练新范式,突破多模态对齐、跨模态推理、多模态数据挖掘和合成、效果评测等关键技术难题; 2、打造行业领先的算法能力:如视频问答、音视频交互等; 3、探索视觉理解大模型与音视频交互大模型技术的深度融合路径,构建支持图像、视频、语音多模态理解的通用大模型架构和大规模训练; 4、支持音视频交互推理加速框架建设,构建完善的音视频交互大模型数据链路,探索和细化不同的音视频交互模型的评估维度、方法和指标,落地评估系统,支撑基础大模型迭代和上线; 5、关注多模态/NLP/语音等方向的前沿技术,及时将新技术应用到产品中。