蚂蚁金服蚂蚁集团-多模态视频理解与交互算法专家-杭州

社招全职2年以上技术类-算法2026-01-22地点：杭州状态：招聘

扫码手机上打开

任职要求

1、本科及以上学历，计算机相关专业，2年以上视频算法相关工作经验；  
2、熟练掌握计算机视觉领域的基础理论和方法，熟悉PyTorch等主流深度学习框架，能够独立实现前沿模型；
3、有良好的自我学习能力及自驱力，对前沿领域有强探索欲，富有想象力和创造力；
4、良好的学术调研能力，良好的逻辑和数据分析能力，有高质量论文…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、研究多模态模型预训练新范式，突破多模态对齐、跨模态推理、多模态数据挖掘和合成、效果评测等关键技术难题；
2、打造行业领先的算法能力：如视频问答、音视频交互等；
3、探索视觉理解大模型与音视频交互大模型技术的深度融合路径，构建支持图像、视频、语音多模态理解的通用大模型架构和大规模训练；
4、支持音视频交互推理加速框架建设，构建完善的音视频交互大模型数据链路，探索和细化不同的音视频交互模型的评估维度、方法和指标，落地评估系统，支撑基础大模型迭代和上线；
5、关注多模态/NLP/语音等方向的前沿技术，及时将新技术应用到产品中。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

算法+

OpenCV+

PyTorch+

深度学习+

数据分析+

大模型+

模式识别+

还有更多 •••

登录查看完整学习资料

相关职位

未来生活实验室-多模态大模型算法专家-北京/杭州

社招2年以上

淘天集团未来生活实验室，聚焦于AI的发展，打造支撑电商及AI Native的大模型基座能力，兼顾对1-3年内和未来生活场景相关的前沿技术的研究和关注。既要支持好各个前台场景的AI化，又肩负起探索未来技术趋势的责任。 1. 探索多模态大模型，包括多模态大模型预训练、SFT微调、及RLHF对齐等技术； 2. 探索图像和视频的统一表征方法，以及长视频的高效表征压缩技术； 3. 探索将多模态大模型用于图像理解、视频理解、视觉推理、视觉多轮交互、实时对话等任务； 4. 探索原生多模态大模型的架构与训练范式； 5. 结合淘天业务场景，推动多模态大模型在淘天搜索、推荐、广告等业务中的应用。

更新于 2025-06-10北京|杭州

未来生活实验室-多模态大模型算法专家-北京/杭州

社招2年以上

更新于 2025-07-30北京|杭州

千问C端事业群-千问/夸克-Post-Training 高级算法专家-北京/杭州

社招3年以上技术类-算法

岗位描述：全面负责夸克大模型在 Post-Training 能力进化和上限突破、持续推进模型能力边界和商业价值的不断延伸。通过对前沿算法的极致探索和高效能工程体系的构建，驱动模型在逻辑推理、问答、复杂多轮上下文、指令遵循、Agent 智能体、多模态交互等关键领域实现突破性进展，打造世界一流的模型效果，并定义其在未来 AI 应用中的核心价值。工作职责： ● 【战略规划与技术引领】制定并执行大模型 Post-training 的中长期技术路线图，预判并布局下一代对齐技术、能力增强及对齐方案。主导核心算法的战略方向，确保技术路径与公司业务战略高度协同。 ● 【核心能力与壁垒构建】领导团队进行体系化的数据驱动实验，不仅局限于日常迭代，更要建立可规模化的能力提升范式。您将攻坚并解决模型在复杂指令遵循、通用问答、RAG、深度逻辑推理、内容创作、Tool-Using 等方面的瓶颈问题，构建技术壁垒。 ● 【前沿算法研究与创新】深入探索并推动 Post-training 领域的前沿算法创新，包括但不限于 RLHF/RLAIF 的新范式、模型融合 (Model Fusion/Merge) 、模型蒸馏及 MoE 模型的高效对齐策略。您的目标是显著降低模型幻觉、提升推理的效果、加强模型复杂指令的遵循能力。 ● 【多模态与未来探索】从统一多模态模型的战略视角出发，您将指导并规划多模态统一大模型的 Post-training 技术融合。探索并落地高效的多模态 SFT 数据构建、跨模态能力协同训练及对齐策略，确保模型在图文问答、视频对话等复杂场景下实现无缝、精准的理解与生成。 ● 【团队领导与效能提升】负责 Post-training 算法团队的组建、培养与管理，打造一支具备高效执行力和持续创新能力的顶尖团队。您将指导并优化从研究、实验、评测到部署的全链路工具链与工程框架，实现研发效能的倍增。

更新于 2026-01-20北京|杭州

算法工程师-AIGC数字人视频生成（T-Star Lab日常实习生）

实习淘天集团T-St

如果你，期望在阿里巴巴生态的广阔场景中，借助海量用户数据和先进的技术能力，打造千人千面的个性化数字人形象生产系统，为亿级用户提供高度定制化的虚拟形象服务；如果你，期望攻克高保真语音驱动（Speech-to-Video）的核心难题，研发业界领先的唇形同步、情绪化面部表情及肢体动作生成算法，实现从音频到视频的端到端极致还原，赋予数字人如同真人般的自然表达力与情感共鸣；如果你，期望挑战实时流式生成的技术难题，探索扩散模型与自回归模型的极速推理优化，实现低延迟、高吞吐的视频流实时产出，打破离线渲染的局限，支撑起百万级并发的实时交互直播场景；如果你，期望突破数字人与物理世界的边界，深耕复杂物体交互（Human-Object Interaction）技术，解决数字人在手持商品、展示道具等动态交互过程中的物理规律约束、空间一致性及遮挡还原难题，让数字人在导购、演播等场景中具备真实的物体操控能力；如果你，期望深入探索多模态统一大模型的应用，将视觉、语音、文本与动作序列深度融合，构建具备精细环境感知与逻辑理解能力的数字人系统，在复杂的电商实景中实现人-物-场的高度协同与自然对答。加入我们，你的成果将直接应用于电商领域的核心场景——AI实时直播、智能客服、交互式数字导购，影响数以亿计的用户。在这里，你不仅是在写代码，更是在通过流式架构与交互算法，重新定义未来数字人的无限可能！研究背景：在 AIGC 浪潮下，数字人已从早期的录像进化为动态实时生成。然而，业界仍面临三大核心挑战：交互的自然度：如何让数字人的肢体、表情与复杂的语音情感高度对齐，消除“恐怖谷”效应。物理规律的缺失：在电商直播等场景中，数字人需要手持商品、展示道具，如何解决手部交互（HOI）中的遮挡、形变及空间一致性是当前的技术深水区。实时性的瓶颈：扩散模型效果虽好但推理慢，如何实现低延迟的流式视频生成，是数字人从视频工具走向实时互动的必经之路。研究课题：基于扩散模型的高保真流式视频生成架构研究；复杂场景下的人与物体交互（HOI）视频生成；多模态情感驱动的全身动作与表情协同生成；成长资源： 1、算力自由：远离“算力焦虑”，专注于算法创新。 2、海量高质数据：拥有业界独有的、极其丰富的多模态商业场景数据，未视频生成，HOI等前沿课题提供土壤。 3、鼓励顶会产出：团队在保持业务领先的同时，高度重视学术沉淀。鼓励将研究成果总结并发表至CVPR、SIGGRAP、HNeurIPS 等顶会，支持参加国际学术会议，提升行业影响力。 4、工业界顶级专家的 1v1 指导：团队由来自国内外顶尖院校的博士和工业界资深专家组成，实行“师兄制”，从学术论文投稿到工程落地全过程深度带教。

更新于 2026-01-21北京|杭州