百度2027AIDU-多模态算法工程师(J99956)
任职要求
1. 博士优先,计算机、模式识别、人工智能、电子工程、数学等相关专业硕士及以上学历; 2. 掌握计算机视觉、图像处理、深度学习等基础理论,在多模态模型训练、文档多模态、开放域目标检测、模型压缩小型化等方向有深入研究; 3. 熟悉扩散模型、多模态大模型(如CLIP、Flamingo、Qwen-VL等),对图像生成、视频生成、3D生成、数字人等方向有浓厚兴趣及项目经验; 4. 熟练掌握Python及PyTorch/Padd…
工作职责
1. 负责多模态大模型的算法研发与迭代,覆盖图文、视频、语音、3D等多模态融合理解与生成; 2. 研究跨模态对齐、对比学习、扩散模型、视频生成、图像编辑、3D生成、风格迁移等前沿技术; 3. 参与多模态数据pipeline建设、评测体系设计与业务落地,推动模型在搜索、推荐、AIGC、健康、自动驾驶、网盘文库、视频理解、解题等核心场景中的应用; 4. 研发方向包括但不限于:视觉感知算法、多模态理解模型、图像/视频生成、模型压缩轻量化、文档多模态等; 5. 建设多模态数据管线,优化模型训练与推理效率,完成算法模型的训练、优化和部署。
1. 研究跨模态数据表征方法、高质量数据萃取方法、高效算法算力融合的创新算法,探索跨模态端到端大模型的前瞻技术和趋势; 2. 支持大模型平台化及规模化创新应用落地。
1. 构建下一代基于大模型的 Autonomous Agent 系统,让 AI 从“对话工具”进化为“可执行任务的智能体”; 2. 设计复杂任务的 规划(Planning)—执行(Acting)—反思(Reflection)闭环,提升 Agent 的自主决策能力; 3.搭建 Agent 的核心能力体系,包括: Tool / API 调用(函数调用体系)、长短期记忆(Memory)机制、多轮推理与状态管理(Reasoning & State); 4. 探索并落地 多Agent协作(Multi-Agent Systems),解决复杂业务问题(如自动化流程、复杂决策、智能运营等); 5. 深度参与 RAG(检索增强生成)+ Agent 融合架构设计,构建具备知识理解与行动能力的系统,推动 Agent 在真实场景中的应用落地(如搜索、医疗、企业服务、数据分析、自动化办公等)参与 Agent 系统的评测体系建设(Eval),优化智能体的:成功率 / 稳定性、成本(Token / 调用)、延迟与用户体验; 5. 持续跟踪前沿方向(如 Tool Learning、Self-Improvement、长期记忆、World Model、多模态 Agent),并进行工程化落地。
1. 基础模型 -构建自动驾驶统一模型底座,研发多模态主干结构和子任务;模型蒸馏与轻量化; -结合语言对齐、生成式自监督、半监督等技术,研发大规模预训练,提升复杂场景下的泛化能力与鲁棒性; 2. 数据与模型迭代 -结合3D几何及重建等技术,建设数据自动化产线-设计并实现多阶段预训练-后训练的流程建设与数据使用策略。