logo of baidu

百度大模型算法工程师(VLM 方向)(J98540)

社招全职ACG地点:北京状态:招聘

任职要求


-计算机、人工智能、数学或相关专业本科及以上学历Python 编程能力扎实,深入理解 Transformer 及主流多模态模型架构原理
-具备 VLA 或 GUI Agent 多模态模型的实际训练、微调与上线经验,QwenVL 系列…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


-负责 GUI Agent 专用 VLA 模型的训练与微调,包括基于 Qwen-VL、Qianfan-VL 等多模态模型的架构设计与实验迭代
-主导后训练全流程(SFT → RM → RL)的算法设计与落地,具备 RLHF / DPO 等对齐方法的工程实践经验
-设计并落地 GUI 操作轨迹数据的自动化采集、清洗与标注 Pipeline,推动数据飞轮闭环,驱动模型持续进化
-主导模型推理加速与生产部署,熟悉 vLLM、TensorRT-LLM 等推理框架及量化技术,持续优化端到端时延与吞吐量
-研究并落地适用于 GUI Agent 场景的高阶推理机制(多步规划、自我反思、动作验证等),持续跟踪前沿进展
包括英文材料
学历+
Python+
还有更多 •••
相关职位

logo of sf
校招研发类

1、针对物流领域场景进行深入的视觉算法研发,包括但不限于图像理解、视频理解等; 2、负责垂域多模态大模型的继续预训练、SFT、RFT等工作,积极跟进大模型业内应用趋势,包括但不限于MoE、Agent等方向。

更新于 2025-08-19深圳
logo of sf
校招研发类

1、针对物流领域场景进行深入的视觉算法研发,包括但不限于图像理解、视频理解等; 2、负责垂域多模态大模型的继续预训练、SFT、RFT等工作,积极跟进大模型业内应用趋势,包括但不限于MoE、Agent等方向。

更新于 2026-03-05深圳
logo of didi
实习技术类

更新于 2025-07-04北京
logo of didi
社招技术

* 基于 Vision-Language Models (VLM) 和 Large Language Models (LLM),设计与实现自动驾驶中行为预测与运动规划的基座模型(Foundation Model) * 利用多模态预训练大模型进行轨迹生成与融合,提升基座模型对其他交通参与者意图的理解与预测能力 * 针对车端/云端部署,开展模型算法层面性能优化工作,例如压缩、剪枝、蒸馏、训练和推理加速等,确保模型可用性、系统实时性与资源利用率 * 与算法、软件和系统团队紧密协作,推动模型集成及在仿真与真实车载平台的落地

更新于 2025-09-04杭州