logo of dingtalk

钉钉钉钉-通用视觉理解(视频分析)-Agent 算法专家

社招全职3年以上技术类-算法地点:杭州状态:招聘

任职要求


计算机、人工智能、模式识别、自动化等相关专业,本科及以上,具备扎实的机器学习/深度学习基础。
熟悉计算机视觉与视频理解核心方向,具备检测、分割、跟踪、动作识别、时序建模、事件分析等相关经验。
熟悉 VLM/MLLM/Omni 多模态模型原理及应用,有视频理解、多模态问答、视频 Agent 或具身/交互式智能体经验者优先。
熟悉大模型后训练方法,包括 SFT、DPO、RL/RLHF 等,对 Agent 能力对齐、任务分解、规划推理有实战经验。
具备 Agent/tool use/function calling/RAG 相关经验,能够设计基于工具增强的多轮推理流程。
熟悉长短期记忆、上下文管理、时序信息压缩与检索机制,有长视频理解或流式视频分析经验者优先。
熟练使用 PyTorch,具备模型训练、微调、部署与性能优化能力;…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责面向真实业务场景的视频分析 Agent 算法研发,围绕实时视频理解与离线长视频复杂任务分析两大方向,构建具备感知、记忆、规划、推理与工具调用能力的多模态智能系统。
岗位职责
负责实时视频分析 Agent研发,融合 CV、VLM、Omni/多模态大模型等能力,服务于工业质检、巡检、SOP 合规、Streaming Video 交互等场景。
设计并优化面向视频流场景的长短期记忆机制、事件检测、异常告警与状态跟踪能力,提升实时性、稳定性与准确率。
负责通用/专用视觉模型在垂直场景中的微调、适配与性能优化,包括检测、识别、时序理解、多模态问答等任务。
负责离线长视频分析 Agent能力建设,提升模型在复杂任务中的自主拆解、规划、多步推理、细粒度分析与结果归因能力。
基于 SFT、RL/RLHF、DPO、Agentic RL 等后训练方法,提升大模型在Planning、Reasoning、Function Calling、RAG、数据洞察等方面的能力。
构建视频分析 Agent 的工具使用体系,支持如 crop_video、zoom-in、片段重采样、目标聚焦、证据回溯等能力,形成“观察—推理—行动—验证”闭环。
设计高质量训练数据与评测体系,持续提升长视频复杂任务上的准确率、鲁棒性、可解释性与泛化能力。
与产品、工程、业务团队协作,推动算法方案在真实场景中的落地与迭代。
包括英文材料
模式识别+
机器学习+
深度学习+
OpenCV+
AI agent+
智能体+
还有更多 •••
相关职位

logo of meituan
校招核心本地商业-基

视觉方向 1.探索大规模/超大规模多模态视觉大模型,并进行极致系统优化,数据建设、指令微调、偏好对齐、模型优化。 2.探索统一的多模态大模型架构,打通理解与生成之间的壁垒,研究如何在单一模型框架下实现对多模态信息的深度理解与高质量生成。 3.探索多模态推理模型(Reasoning)架构、提升多模态在学科、通用视觉任务上的思考和推理能力。 4.探索视觉GUI Agent模型构建,提升GUI场景下的理解、规划和决策能力,进而提升人机交互的性能。 5.探索具身智能大模型的构建,提升机器人在物理场景中的模仿学习和强化学习算法,提升具身智能的多模态处理能力以及与开放世界的物理交互能力。 6.探索多模态视觉大模型后训练方法,探索指令微调、强化学习等后训练策略,提升模型的性能。 语音方向 1.语音表征学习:探索同时适用于理解和生成任务、兼顾学习效率和效果的语音表征。 2.模型结构与预训练方法:研究可大规模扩展的模型结构,高效学习语音和文本知识,提升模型的理解和生成能力。 3.音频理解:在语音(Speech)之外,探索更广泛的音频(Audio,如音乐、环境声)理解能力。 4.音频生成:探索高质量音频生成能力,具备强表现力、多风格、多语种、多音色等。 5.后训练方法:探索基于 SFT 和 RL 的后训练策略,进一步提升模型能力上限,。 6.智能交互技术研究,探索高效的智能交互技术,增强系统交互过程中的智能能力、拟人度、自然度和主动性。 全模态融合 大语言模型最近取得的突破,加速了多模态大模型的发展。全模态大模型(Omni-MLLM)通过融入如视觉、语音等模态,拓展了多模态大语言模型的能力,有助于更全面、多维度地理解与生成各种模态,提供更强的智能以及更智能的交互模式。 1.多模态表征对齐:研究在统一模型架构下提取并共享视觉、语音、语言等模态的特征;基于对比学习、自监督学习,优化多模态对齐过程;针对视频、音频等数据,研究时间序列信息的对齐技巧。 2.多模态统一模型架构:探索统一全模态大模型架构,研究高效全模态预训练技术,使之能够高效处理文本、图像、视频和语音数据,并生成涵盖文本、音频和图像等多种模态的输出 3.多模态知识迁移与能力增强:研究在不同模态间的能力迁移,激发模型在跨模态任务中的涌现能力。

更新于 2025-05-23北京|上海|深圳
logo of bytedance
校招A110771

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、建立下一代多模态模型评测体系,引导模型向AGI的方向发展:创建针对推理与交互的下一代多模态模型评测Leaderboard,包括而不限于图像理解,视频理解评估、视频流式、多模态交互评估、视觉CoT评估、世界模型评估方法,GUI/游戏等虚拟世界的通用多模态Agent评估方法; 2、对数据敏感,能对构造评测集数据有一些自己的深入的见解;根据数据的需求和用途,为数据集标准环节制定详实、全面、可执行的标准;参与构造可自动化的数据Pipeline,对数据集阶段性质检,迭代标注标准; 3、探索多模态大模型能力边界:追踪业界对于模型能力的边界拓展进程,持续迭代复杂度更高的评测集合,防止基准测试饱和模型过拟合; 4、优化评测工程链路与评测手段:探索自动化评测任务构造和自动化评估方法,提升模型评测效率。

更新于 2025-07-15北京
logo of meituan
校招核心本地商业-基

预训练 探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型。 1.设计更高效的模型结构,提高给定数据量、计算量、参数量、序列长度等约束下的模型能力,如长序列能力、记忆能力、推理能力等; 2.探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等; 3.研究模型结构和数据的耦合关系;探索预训练与上下游环节的联合优化;改进分阶段训练范式; 4.结合MLsys解决大规模训练和推理中遇到的卡点问题,实现算法和工程联合设计。 原生多模态 1.负责面向真实世界数据(尤其是大规模视频序列、图文交错数据等)的原生多模态大模型的架构设计与预训练技术探索。攻坚多模态信息(视觉、语言、音频、触觉等)的深度融合、统一表征与跨模态生成。借助更大规模自监督学习范式,驱动模型学习多模态序列分布,致力于让模型从海量数据中学习世界运行的规律、物理交互知识与通用技能; 2.设计并优化适用于原生多模态架构的表征构建与学习方案,以增强模型对多模态Token的深层理解、采样与复杂推理能力。结合SFT/RL等后训练探索,激发模型采样多模token,解决物理世界问题能力; 3.负责将原生多模态大模型学到的丰富先验知识高效迁移并赋能具身智能体。主导或参与强化学习(RL)、模仿学习(IL)、规划与控制算法的设计与优化,显著提升智能体在模拟及真实机器人上的学习效率、任务成功率与自主决策能力; 4.负责设计并与工程团队紧密协作搭建高逼真度、可扩展的具身智能模拟环境,产出多样化、高质量的合成交互数据,为强化学习算法的训练、测试以及Sim-to-Real研究提供坚实的数据与环境基础。 智能体系统 1.研发端到端训练、能够自主处理问题、具备完整工具使用能力的智能体(Agent)系统,在Agentic Coding、DeepResearch等各类端到端任务上取得突破。 2.探索能够自主与环境交互,自适应学习并持续提升的智能体(Agent)系统,提升大模型解决现实问题的能力。

更新于 2025-05-23北京|上海
logo of bytedance
校招A240474B

团队介绍:广告业务原为商业产品与技术部门,为抖音集团的商业变现提供广告产品与技术,负责端到端大型广告系统建设,覆盖抖音、今日头条、西瓜视频、番茄小说、穿山甲等产品矩阵,践行"激发生意新可能"理念,致力于让营销更省心、更高效、更美好,推动商业的可持续增长,让不分体量、地域的企业及个体,都能通过数字化技术激发创造、驱动生意。连接广告主、用户及生态伙伴、成为开放共赢的全球最佳智能营销平台之一。在这里,你将投身建设面向未来的数字营销能力,接触到全球先进的商业产品架构、模型和算法,在互联网广告行业始终创新。 课题背景: 随着人工智能技术的快速发展,大模型技术在交易与广告场景中的应用日益广泛,已成为推动行业创新和效率提升的重要驱动力。大模型凭借其强大的学习能力和泛化性能,在多个领域展现出显著优势。例如,推荐大模型能够精准捕捉用户偏好,提升个性化推荐效果;AIGC(AI-Generated Content)技术可用于广告创意、商品图片和视频生成,大幅降低创作成本并提升内容质量;广告投放诊断系统和诊断助手帮助优化投放策略;智能客服、影片智能剪辑、智能导购、大模型审核、用户序列建模以及多模态广告和用户理解等应用,则通过自然语言处理、多模态数据融合等技术,提升用户体验和业务效率。 然而,交易与广告场景对大模型系统的要求极高,不仅需要模型具备出色的精度和泛化能力,还需在实时性、稳定性、可扩展性等方面满足严苛标准。特别是在大规模分布式训练、推理加速、异构硬件支持、多模态数据处理以及系统集成等方面,存在诸多技术难点。因此,针对交易与广告场景研发和优化大模型系统,不仅是人工智能技术发展的前沿方向,也是行业应用的迫切需求。本课题旨在通过系统和工程领域的深入研究,突破关键技术瓶颈,构建高效、稳定、可扩展的大模型解决方案,为交易与广告场景提供强有力的技术支撑。 课题挑战: 1、大规模分布式训练加速:大模型训练需处理海量数据和高复杂度计算,导致训练耗时长、资源需求大。如何优化分布式训练架构,提升数据并行、模型并行和流水线并行的效率,是首要技术难题。 2、推理加速和性能优化:交易与广告场景对实时性要求极高,如广告投放需毫秒级决策。如何在资源受限环境下通过模型压缩和推理引擎优化实现快速推理,是关键挑战。 3、异构硬件支持:大模型需适配多种硬件平台。如何实现高效部署和负载均衡,确保跨硬件精度一致性和高性能,是技术难点。 4、编译优化:编译优化是过程复杂,如何开发高效编译器,优化长尾/灵活模型或结构在不同Accelerator执行效率并减少延迟,是亟待解决的问题。 5、Agent工程:智能客服和导购等应用需构建自主决策的AI Agent。如何设计高效的Agent系统,支持复杂任务执行,是前沿挑战。 6、强化学习框架:强化学习在广告投放优化等场景中潜力巨大。如何构建高效框架,支持大规模环境训练和推理,是研究难点。 课题内容: 1、大规模分布式训练加速技术 1)研究数据并行、模型并行和混合并行算法,优化训练效率; 2)开发自适应负载均衡机制,减少资源浪费; 3)探索梯度压缩和通信优化技术,降低网络开销; 2、推理加速与性能优化方法 1)研究模型压缩技术(如量化、剪枝),减小模型体积; 2)开发高效推理引擎,支持批量推理和异步处理; 3)针对不同Accelerator的架构加速推理过程; 3、异构硬件支持与优化 1)设计通用部署框架,支持多硬件无缝集成; 2)开发硬件感知调度算法,优化任务分配; 3)研究跨硬件模型迁移技术,确保精度一致; 4、编译优化技术 1)深入优化模型编译器,优化长尾场景的计算开销; 2)研究图优化和算子融合技术,减少计算开销; 3)探索动态优化方法,提升运行时效率; 5、Agent工程与实现 1)设计模块化Agent架构,支持任务分解和决策; 2)开发多模态交互技术,提升用户体验; 3)研究Agent训练与评估方法,优化复杂场景性能; 6、强化学习框架构建 1)开发高效强化学习算法,支持多智能体协作; 2)针对交易与广告场景的训练场景优化训练速度,提升迭代效率; 3)探索强化学习在广告投放中的应用,提升决策效果。

更新于 2025-05-26北京