快手多模态算法工程师(大模型方向)-【算法中心】
任职要求
1、硕士及以上学历,对NLP/CV/多模态算法有深入的理解和实践,有大规模模型训练、微调、压缩、蒸馏等经验者优先; 2、有较强的学术调研、文献阅读和算法实现能力,优秀的独立开发、调试能力,有高质量学术论文、开源项目者优先; 3、具备AI模型…
工作职责
1、参与NLP/CV/多模态算法的研究和开发; 2、探索风控场景的大模型落地方案,应用于风控核心业务中。
1. 基于大模型的多模态内容理解技术研发与应用落地,涵盖文本、图像、音频、视频等多类型数据的融合处理; 2. 设计并优化多模态语义理解算法,包括但不限于跨模态检索、多模态内容生成、多模态情感分析、多模态语义匹配等; 3. 参与构建多模态内容理解系统,解决实际业务场景中的复杂问题,并应用于内容安全、生态治理、智能内容审核等核心业务中; 4. 跟踪国内外大模型与多模态技术前沿动态,将先进算法与技术转化为实际应用方案,推动技术创新与产品迭代。
职位名称: 团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现空间智能、高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 1. 定义未来地图范式:不再局限于传统视觉感知,而是利用多模态大模型实现从“看到”到“理解并生成”的跨越,解决行业核心痛点 2. 直面海量数据与复杂场景:处理中国乃至全球最复杂、最丰富的驾驶场景数据,构建坚实的技术壁垒 3. 完整的研发生态:从顶级学术研究(顶会论文)、开源项目(见团队GitHub)到国民级应用落地,提供全方位的价值实现舞台 岗位职责: 1. 核心方向:研发面向车道级地图自动化构建的多模态大模型,基于道路视频与图像自动提取车道线、POI信息等地图要素,实现高效、自动化的地图数据生产; 2. 模型全链路研发:负责或参与多模态大模型的预训练、有监督微调(SFT)、奖励模型(RM)训练与强化学习(RL)优化全流程,探索模型在空间推理、结构化生成任务上的能力强化路径; 3. 技术攻坚与落地:优化模型的推理效率、泛化能力与输出稳定性,研究适配的模型压缩(量化、蒸馏)、加速技术与部署方案,推动技术在大规模数据生产管线中落地; 4. 前沿探索与创新:跟踪并吸收多模态理解、视觉生成、世界模型、3DGS等领域的前沿进展,将其创新性地应用于地图生成问题,持续提升自动化生产的质量与范围。
团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 我们正在寻找对多模态技术充满热情的算法工程师,加入我们的研发团队。您将专注于多模态理解与生成,推动其在高德扫街榜等热门应用中落地,为用户提供更智能、更沉浸的服务。 主要职责: 1、多模态大模型研发:开发业界领先的图文多模态大模型,实现高质量场景理解和内容生成; 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等); 3、业务场景落地:将多模态技术应用于扫街榜等实际业务场景,与产品、工程团队合作,推动技术从研发到上线的全流程落地; 4、前沿技术探索:持续跟踪生成式AI、跨模态对齐、思维链、强化学习、多模态交互等最新技术趋势,提出创新性解决方案。
岗位课题: 1.电商视频生成模型研发 2.多个视频应用模型研发 3.原生支持中文的图像生成模型研发 4.有语义泛化性的图像编辑模型研发 课题背景: AIGC 生成已成为广告创意制作的主流制作形式,基于AIGC 图像和视频生成模型提供了丰富的素材并持续提升创意制作的美观度和多样性。同时视频和图像生成模型也是各科技公司在AI 领域争夺的中心领域之一。 阿里妈妈在过去两年从业务需求出发,持续研发电商领域的多模态生成模型,推出了淘宝星辰视频生成模型、图生视频模型、短视频模型、服饰模特生图模型、图文海报制作等多个原创能力,并成功落地万相营造、万相台无界版、千牛、光合平台、生意管家等多个工具平台和展示、搜索、外投等多个投放场景的创意制作。 岗位职责: 你将有机会参与核心多模态大模型研究工作,深入到数据准备 | Caption | 训练系统搭建 | Encoder | Pretraining | Continuous training | SFT | Post training 等多模态生成的方方面面, 亲手解决大模型研发的问题,并最终交付电商场景领先的生成模型,以及有机会提前获得校招T-Star的正式Offer。