高德地图算法工程师-多模态大模型
任职要求
1、计算机科学、人工智能等相关专业硕士及以上学历。 2、熟悉多模态领域前沿技术(如CLIP、Stable Diffusion、DreamFusion等),掌握指令微调、LoRA等高效微调方法。有实际项目经验的优先。 3、熟练使用PyTorch、Tens…
工作职责
我们正在寻找对多模态技术充满热情的算法工程师,加入我们的前沿技术研发团队。您将专注于多模态理解与生成,推动其在地图数据、信息流推荐、打车服务等场景中的落地应用,为用户提供更智能、更沉浸的服务。 主要职责 1、多模态模型研发:开发业界领先的图文多模态理解与生成模型,结合扩散模型(Diffusion Models)、Transformer架构等实现高质量场景理解和动态内容生成。 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等)。 3、业务场景落地:将多模态技术应用于实际业务场景,如地图数据(道路、POI等)、信息流推荐、打车服务等。与产品、工程团队合作,推动技术从研发到上线的全流程落地。 4、前沿技术探索:持续跟踪生成式AI(Generative AI)、跨模态对齐、思维链强化学习、多模态交互、具身智能等最新技术趋势,提出创新性解决方案。
团队介绍 "阿里巴巴国际数字商业集团的智能技术团队,负责阿里巴巴旗下多个国际化电商平台的搜索、推荐、广告、用增等技术。团队致力于将最前沿的AI技术与国际化电商业务问题深度结合,为用户打造更好更智能化的网上购物体验,同时赋能百万商家实现更高效的经营。 选择加入我们意味着投身入于高速发展的国际化电商业务,一起打造最先进的AI技术以驱动全球电商业务发展。" 职位描述 1.负责研发电商多模态预训练模型基座,抽象并解决商品理解的基础问题使得模型具备业务通识能力,并构建针对大模型幻觉问题、推理能力、模型加速等关键问题的系统性解决方案,提高下游业务的迭代效率和效果上限。 2.基于多模态预训练大模型,落地商品理解关键场景任务,比如商品类目/属性/标签预测、商品同款、商品图搜等,实现业务指标提升。 3.学习前沿论文与把握技术趋势,深入理解底层算法原理,探索实验面向未来的硬核技术,实现核心技术突破和技术创新,发表相关论文。
1、负责在TikTok内容电商领域探索计算机视觉、多模态大模型等前沿技术; 2、负责多模态大模型等技术在内容电商领域的应用,赋能搜推、供应等电商环节; 3、负责多模态相关模型优化和迭代,包含视频理解、VLM Posttraining、General Universal Embedding等前沿技术。
-协助团队进行多模态大模型相关研究,包括高效微调、多模态理解对齐、玩法开发、幻觉消除、数据治理部署优化等相关工作 -参与项目的算法验证和优化,确保算法的效率和准确性 -协助进行文献调研,总结最新的技术趋势和研究进展 -参与团队内部的技术交流和分享会议
机器智能部门介绍: 蚂蚁集团大安全事业群机器智能团队致力于打造安全科技的核心竞争力,做可信AI的持续引领者,为广大支付宝用户的数字化生活提供全方位安全保障。作为蚂蚁集团安全版图中的核心力量,我们正以最前沿的AI算法为刃、以大模型为盾,编织数字世界的"安全之网"。在这里,大模型、智能体、AI安全等热门的研究不再是纸上谈兵,每一个方向都在落地成为真实业务场景、十亿级用户的智慧防线。 关于团队,过去获得过浙江省科技进步一等奖、中国电子学会科技进步一等奖,人工智能学会吴文俊人工智能自然科学奖一等奖,中国图象图形学学会科技进步一等奖、多次获得中国计算机学会科技进步奖、世界人工智能大会SAIL之星与"镇馆之宝",等多个重量级奖项。可信AI专利布局全球第一,主导制定ITU国际风控标准。多名Kaggle Grandmaster ,拿过多个KDD Cup/CVPR/NeurIPS/ICCV/CVPR/ECCV等多个顶会竞赛冠军,累计发表近百篇顶会论文; 在这里,你将有机会和毕业于海内外著名高校的行业专家们、众多KDD Cup/CVPR 等比赛冠军、Kaggle Grandmaster 、顶会论文作者们共同根植蚂蚁丰富的场景数据,利用海量算力探索创新前沿算法应用,使用领先的机器学习算法解决风控业务问题,构建数据与知识驱动的智能风控体系,提升用户的支付安全体验。 加入我们,让我们一起为世界带来微小而美好的改变。 1.伪造检测方向,统一篡改和生成,统一图像、音频和视频的Allinone模型,并探索推理和生成reward; 2.多模推理方向,视觉图像&视频reasoning,提升理解和推理能力,攻坚reward设计、多模态推理框架设计等核心问题; 3.多模交互方向,构建统一的端到端多模态模型,使其能够像人类一样同时感知多种模态的信息(文本、图像、音频、视频),并以流式方式生成文本和自然语音响应。