快手多模态算法工程师(大模型方向)-【算法中心】
任职要求
1、硕士及以上学历,对NLP/CV/多模态算法有深入的理解和实践,有大规模模型训练、微调、压缩、蒸馏等经验者优先; 2、有较强的学术调研、文献阅读和算法实现能力,优秀的独立开发、调试能力,有高质量学术论文、开源项目者优先; 3、具备AI模型开发经验,精通至少一种深度学习框架,如 pytorch、tensorflow;编程能力较强,精通至少一种技术语言,包括但不限于Python、Golang、Java、C/C++、C#等; 4、具备优秀的逻辑思维能力,对解决有挑战的事情充满热情。
工作职责
1. 基于大模型的多模态内容理解技术研发与应用落地,涵盖文本、图像、音频、视频等多类型数据的融合处理; 2. 设计并优化多模态语义理解算法,包括但不限于跨模态检索、多模态内容生成、多模态情感分析、多模态语义匹配等; 3. 参与构建多模态内容理解系统,解决实际业务场景中的复杂问题,并应用于内容安全、生态治理、智能内容审核等核心业务中; 4. 跟踪国内外大模型与多模态技术前沿动态,将先进算法与技术转化为实际应用方案,推动技术创新与产品迭代。
团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 我们正在寻找对多模态技术充满热情的算法工程师,加入我们的研发团队。您将专注于多模态理解与生成,推动其在高德扫街榜等热门应用中落地,为用户提供更智能、更沉浸的服务。 主要职责: 1、多模态大模型研发:开发业界领先的图文多模态大模型,实现高质量场景理解和内容生成; 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等); 3、业务场景落地:将多模态技术应用于扫街榜等实际业务场景,与产品、工程团队合作,推动技术从研发到上线的全流程落地; 4、前沿技术探索:持续跟踪生成式AI、跨模态对齐、思维链、强化学习、多模态交互等最新技术趋势,提出创新性解决方案。
岗位课题: 1.电商视频生成模型研发 2.多个视频应用模型研发 3.原生支持中文的图像生成模型研发 4.有语义泛化性的图像编辑模型研发 课题背景: AIGC 生成已成为广告创意制作的主流制作形式,基于AIGC 图像和视频生成模型提供了丰富的素材并持续提升创意制作的美观度和多样性。同时视频和图像生成模型也是各科技公司在AI 领域争夺的中心领域之一。 阿里妈妈在过去两年从业务需求出发,持续研发电商领域的多模态生成模型,推出了淘宝星辰视频生成模型、图生视频模型、短视频模型、服饰模特生图模型、图文海报制作等多个原创能力,并成功落地万相营造、万相台无界版、千牛、光合平台、生意管家等多个工具平台和展示、搜索、外投等多个投放场景的创意制作。 岗位职责: 你将有机会参与核心多模态大模型研究工作,深入到数据准备 | Caption | 训练系统搭建 | Encoder | Pretraining | Continuous training | SFT | Post training 等多模态生成的方方面面, 亲手解决大模型研发的问题,并最终交付电商场景领先的生成模型,以及有机会提前获得校招T-Star的正式Offer。
岗位课题: 1.电商视频生成模型研发 2.多个视频应用模型研发 3.原生支持中文的图像生成模型研发 4.有语义泛化性的图像编辑模型研发 课题背景: AIGC 生成已成为广告创意制作的主流制作形式,基于AIGC 图像和视频生成模型提供了丰富的素材并持续提升创意制作的美观度和多样性。同时视频和图像生成模型也是各科技公司在AI 领域争夺的中心领域之一。 阿里妈妈在过去两年从业务需求出发,持续研发电商领域的多模态生成模型,推出了淘宝星辰视频生成模型、图生视频模型、短视频模型、服饰模特生图模型、图文海报制作等多个原创能力,并成功落地万相营造、万相台无界版、千牛、光合平台、生意管家等多个工具平台和展示、搜索、外投等多个投放场景的创意制作。 岗位职责: 你将有机会参与核心多模态大模型研究工作,深入到数据准备 | Caption | 训练系统搭建 | Encoder | Pretraining | Continuous training | SFT | Post training 等多模态生成的方方面面, 亲手解决大模型研发的问题,并最终交付电商场景领先的生成模型,以及有机会提前获得校招T-Star的正式Offer。