百度多模态方向(J93112)
任职要求
-本科及以上学历在读,计算机科学、人工智能、电子信息工程等相关专业背景优先 -扎实的算法理论基础和工程实践能力,熟练使用PyTorch等主流深度学习框架 -优先考虑:在AI顶会…
工作职责
-参与多模态基座模型架构的改进,包括但不限于视觉编码器的性能提升与效率优化 -参与多模态训练方法的改进,包括训练收敛速度的改进、模型融合的应用、强化学习算法的应用等 -针对多模态垂直领域场景(教育、OCR、文档理解、视觉定位、电商理解等)进行算法优化与落地,包括高质量数据筛选与合成、模型训练策略优化、评测体系构建等 -梳理与建设公开/Inhouse的Benchmark,作为模型训练的观测指标
-参与多模态基座模型架构的改进,包括但不限于视觉编码器的性能提升与效率优化 -参与多模态训练方法的改进,包括训练收敛速度的改进、模型融合的应用、强化学习算法的应用等 -针对多模态垂直领域场景(教育、OCR、文档理解、视觉定位、电商理解等)进行算法优化与落地,包括高质量数据筛选与合成、模型训练策略优化、评测体系构建等 -梳理与建设公开/Inhouse的Benchmark,作为模型训练的观测指标
1、深度参与多模态核心算法与模型的研发工作,覆盖图像/视频理解与生成、3D内容创建、声学信号(语音/音频)处理,以及跨模态(文本-视觉/听觉等)对齐、融合等关键方向; 2、主导部分子任务的设计与落地,参与实验方案制定、数据挖掘与预处理、模型训练及效果验证等全流程科研环节。参与多模态核心算法的设计与优化,针对模型精度、推理速度、显存占用等关键指标开展针对性调优;深入分析实验数据,提炼核心问题并输出创新性优化方案,助力团队突破技术瓶颈,保障核心产品的技术领先性。 3、独立或组队开展多模态、NLP、CV领域顶会(如NeurIPS/ICML/ICCV/ECCV/ACL等)及前沿开源项目的深度调研,聚焦领域核心难点与创新方向; 4、完成高质量调研报告,包含技术原理拆解、性能对比分析及落地可行性评估,推动前沿技术在团队核心项目中的转化与应用。负责核心代码的开发与维护、科研论文的撰写、技术专利的素材整理等工作,主动贡献创新性科研思路。
-负责百度搜索多模态检索效果优化,深度参与多模态生成式大模型的算法研发与技术创新,重点应用于智能识图、图文问答、AI解题等场景 - 重点研究方向:工作涉及大模型、多模态、生成式、预训练、计算机视觉及基础NLP领域的前沿研究与应用 - 算法研究与创新:持续跟踪学术界与工业界技术动态,探索前沿算法在搜索场景的落地,设计并实现创新性搜索策略,推动搜索技术持续进步 - 跨团队协作:与产品经理、数据科学家、工程师等跨职能团队紧密协作,确保算法方案高效落地并产生实际业务价值