高德地图多模态大模型算法实习
任职要求
任职要求
ꔷ 计算机科学、人工智能、电子信息、自动化或相关专业硕士/博士在读;
ꔷ 熟悉多模态大模型,如Qwen3-VL/Omni系列,具备实际调优或微调经验;
ꔷ 在大语言模型(LLM)、视觉语言模型(VLM)、语音识别(ASR)、多模态表征学习、跨模态对齐等任一方向有扎实基础;
ꔷ 具备良好的编程能力(Python/PyTorc…工作职责
多模态大模型算法实习生 深度参与亿级用户产品的AI核心能力建设,有机会将研究成果落地于高德,影响亿万用户; 岗位职责 ꔷ 参与多模态表征学习与全模态交互模型的研究与开发,探索文本、图像、语音、地理信息等多源异构数据的深度融合方法; ꔷ 聚焦用户多模态指令理解(如“找附近有露营氛围的咖啡馆”)、商铺及内容的多模态理解(图文、视频、评论、POI属性等),构建面向高德搜索、推荐与智能交互场景的AI Agent能力; ꔷ 设计并实现创新性算法,在真实业务场景中验证效果,提升用户获取信息的有效性、趣味性与沉浸感; ꔷ 推动技术前沿探索,目标在顶会发表高质量学术论文,打造业界领先的多模态AI系统。
1、拥抱大模型技术,改进当前内容理解和用户行为理解技术的范式,应用到小红书电商风控&治理场景来解决实际业务问题; 2、进行大模型前沿技术探索和研发,发表国际顶级论文 3、参与大模型相关的业务落地,包括但不限于直播图文信息抽取、文本&用户行为理解、视频结构化、消费者和商家画像、信息抽取、智能摘要、意图理解等;
1、基于大模型等前沿技术,构建多模态内容理解模型,并应用到小红书多模态搜索来解决实际业务问题 2、进行大模型前沿技术探索和研发,发表国际顶级论文 3、参与多模态大模型相关的业务落地,包括但不限于笔记图文/视频多模态内容理解、视频结构化、多模态意图理解等
1、跟踪、探索大模型方向/多模态预训练方向的前沿技术,将各方向的SOTA能力集成到模型底座上,提升下游任务的效果,打造团队的技术先进性; 2、多模态大模型结构的设计、训练任务的规划、预训练流程以及下游功能的开发等。
我们正在寻找对多模态技术充满热情的算法工程师,加入我们的前沿技术研发团队。您将专注于多模态理解与生成,推动其在地图数据、信息流推荐、打车服务等场景中的落地应用,为用户提供更智能、更沉浸的服务。 主要职责 1、多模态模型研发:开发业界领先的图文多模态理解与生成模型,结合扩散模型(Diffusion Models)、Transformer架构等实现高质量场景理解和动态内容生成。 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等)。 3、业务场景落地:将多模态技术应用于实际业务场景,如地图数据(道路、POI等)、信息流推荐、打车服务等。与产品、工程团队合作,推动技术从研发到上线的全流程落地。 4、前沿技术探索:持续跟踪生成式AI(Generative AI)、跨模态对齐、思维链强化学习、多模态交互、具身智能等最新技术趋势,提出创新性解决方案。