百度视觉理解大模型训练专家（J93340）

社招全职ACG2025-12-25地点：北京状态：招聘

扫码手机上打开

任职要求

-硕士及以上学历，计算机视觉/AI/机器学习相关背景
-有SOTA VLM模型训练经验，熟悉ViT、Swin、CLIP、BLI…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

-研发并优化视觉大模型（ViT、CLIP、DiT 等），推进大规模预训练与跨模态对齐
-优化模型训练与推理性能（分布式并行、量化、蒸馏等）
-将前沿模型成果落地教育、零售等行业应用场景
-依托万亿级跨模态数据与超大规模 GPU/TPU 集群，助力行业领先模型训练
-深度参与 VLM/MLLM 架构设计、预训练与优化，推动视觉理解与生成的技术突破

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

OpenCV+

机器学习+

还有更多 •••

登录查看完整学习资料

相关职位

混元基座模型-视觉理解大模型研究

校招青云计划-实习生

深圳

视觉多模态（理解）大模型算法工程师

校招通义2026届秋

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从亿级到万亿级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。若你对以下一个或者多个方向感兴趣均欢迎投递： 1）多模态基础模型的研发，包括融合视觉语言的跨模态理解模型设计，提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing 等核心能力，并同时优化多模态大模型的AI infra。 2）通过强化学习（RL）持续提升多模态模型推理能力和执行任务能力，构建支持网络世界（PC/Mobile/Web/游戏）交互的通用智能体，将相关能力拓展到GUI agent，VLA，以及具身智能场景中。 3）研究理解与生成统一的模型架构，实现跨模态生成与推理的协同优化。工作职责： 1. 多模态 pre-training：开展研究及进行实验，研究内容包括：数据清洗筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law 预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态 post-training：迭代 post-training 训练策略（SFT/RLHF），专项能力数据迭代，参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用 agent：通过强化学习（RL）持续提升多模态模型推理能力和执行任务能力，打造多模态的 test scaling laws，并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成：构建视觉统一理解生成大模型，推进多模态统一生成与理解的推理和交互新范式。

更新于 2025-08-22北京|杭州

多模态/视觉大模型理解和生成算法实习生

实习内容理解

我们是小红书应用算法部/内容理解算法组，目前专注于内容理解场景的技术落地和产品预研。我们希望寻求优秀在读硕士生/博士生共同突破多模态/视觉大模型理解和生成算法在多模态内容理解行业落地的技术挑战，作为实习生，你将有机会与产品、工程紧密合作，将研究算法应用到实际问题中，并解决有难度有价值的问题，促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于： 1. 计算机视觉：解决视觉理解中指代关系特征归一化和识别研究； 2. 多模态表征：多源数据中多模态表征技术，包括局部/全局匹配、视频表征、多模态表征、对抗性和泛化性等问题。 3. 通用多模态大模型：通用多模态大模型在安全领域理解相关研究，包括强化微调、逻辑推理、多模态理解、幻觉消除及评价机制等。我们希望在一个和多个方向做出有意义的、创新性的工作。

更新于 2026-01-04北京

钉钉-通用视觉理解（视频分析）-Agent 算法专家

社招3年以上技术类-算法

负责面向真实业务场景的视频分析 Agent 算法研发，围绕实时视频理解与离线长视频复杂任务分析两大方向，构建具备感知、记忆、规划、推理与工具调用能力的多模态智能系统。岗位职责负责实时视频分析 Agent研发，融合 CV、VLM、Omni/多模态大模型等能力，服务于工业质检、巡检、SOP 合规、Streaming Video 交互等场景。设计并优化面向视频流场景的长短期记忆机制、事件检测、异常告警与状态跟踪能力，提升实时性、稳定性与准确率。负责通用/专用视觉模型在垂直场景中的微调、适配与性能优化，包括检测、识别、时序理解、多模态问答等任务。负责离线长视频分析 Agent能力建设，提升模型在复杂任务中的自主拆解、规划、多步推理、细粒度分析与结果归因能力。基于 SFT、RL/RLHF、DPO、Agentic RL 等后训练方法，提升大模型在Planning、Reasoning、Function Calling、RAG、数据洞察等方面的能力。构建视频分析 Agent 的工具使用体系，支持如 crop_video、zoom-in、片段重采样、目标聚焦、证据回溯等能力，形成“观察—推理—行动—验证”闭环。设计高质量训练数据与评测体系，持续提升长视频复杂任务上的准确率、鲁棒性、可解释性与泛化能力。与产品、工程、业务团队协作，推动算法方案在真实场景中的落地与迭代。

更新于 2026-03-18杭州