百度视觉技术部 视觉架构研发工程师(J83377)
任职要求
-本科以上计算机背景及相关学历,熟悉软件数据结构、算法设计; -精通Linux/C++编程工作环境,熟悉常用工程实现方案,熟悉Golang/Python(任意); -具…
工作职责
-从事视觉感知、视觉生成、数字人等相关研发工作,聚焦高性能计算,追求产品性能和灵活性。 - 国产硬件适配 -分布式向量检索 -视频和视频流感知与生成 -平台化任务调度等。
1、设计和实现机器学习平台系统, 包括dataloader/工具链/组件等AI基础设施, 落地业务功能需求; 2、高效优化和部署 计算机视觉、语音识别、语音合成、自然语言处理 等业务的训练任务; 3、与公司各算法部门深度合作, 分析业务性能瓶颈和系统架构特征, 软硬件结合优化, 实现极致性能。
1.定义并开发机器人关键技术,如关节设计、灵巧机械手、电驱动和传动系统、控制系统、机器视觉、边缘计算等; 2.能够结合生产式人工智能技术探索可商业化的机器人系统并能够开发原理样机验证可行性; 3.负责研发、选择机器人系统 如SCARA、Articulated Roboic Arm、RGV、AMR,、Delta 等; 4.熟悉ROS Moveit, Gazebo、Fanuc RoboGuide等开源和商业化创建模拟和离线编程工具及机器人开发环境; 5.营造我们团队成员的自驱成长思维,推动具有责任感和极端主人翁精神的高绩效团队文化; 6.直接参与概念、设计、架构和研发路线的制定和审查。
1.负责VLM Agent核心能力研发,包括但不限于多模态理解(图像/视频+文本)、指令遵循、自主规划、工具调用、记忆机制设计,实现Agent在特定场景的端到端自主决策与执行能力; 2.参与VLM模型的微调、适配与优化,结合Agent业务场景需求,提升模型的需求理解、工具使用和推理总结能力,提升跨模态交互流畅度和视觉理解精度等; 3.负责 VLM 基础模型能力的边界探索,研究基于强化学习的视觉推理增强技术,优化模型架构与推理策略,持续提升模型在细粒度视觉感知、复杂 UI 理解与跨模态逻辑对齐等高难度任务上的表现,探索 VLM 的 Scaling Law 新路径; 4.结合业务场景,梳理Agent应用需求,推动VLM Agent从原型验证到产品化落地,迭代优化产品体验; 5.跟进VLM与AI Agent领域前沿技术(如复杂任务规划、Think with images、RL 等),开展技术预研与创新,将前沿技术转化为实际业务价值。