logo of amap

高德地图多模态大模型研究型实习生

实习兼职高德研究型实习生地点:北京状态:招聘

任职要求


1. 自然语言处理计算机视觉、人工智能等相关专业的硕士生/博士生,对发文章有兴趣,具备良好的英文写作能力;
2. 发表过CV&AI顶会论文优先,ACM编程竞赛、数据建模竞赛等竞赛获奖优先。
3.…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


一、团队介绍
高德视觉技术中心为高德业务提供全面的核心视觉技术,是高德时空互联网领域重要的技术驱动力。我们专注于图像识别、点云识别、三维重建和传感器融合定位等领域, 我们致力于研究和开发业内领先的感知、SLAM、重建和多模态大模型等算法, 促科技创新,与生态共进,连接真实世界,做好一张活地图,让出行和生活更美好!
通过视觉技术中心的春季实习生项目,高校学生通过此项目可以接触到高德真实的业务场景和海量时空大数据,在优秀的前辈与高德技术人交流学习中加速成长。我们希望更多优秀的高校同学加入我们,一起打造极致的算法和产品体验。
二、基本要求
面向预期于26、27届毕业的同学,可以连续实习至少三个月的同学优先。实习地点:北京,我们将提供有竞争力的实习薪酬和充足的训练资源。
三、算法实习生
职位描述
团队主要聚焦视觉、矢量地图、多模态大模型技术,我们期待你的工作将覆盖以下至少一个技术方向:
1. 探索自动驾驶场景下的在线感知、建图、关联等前沿技术,包括但不限于矢量地图构建、矢量地图关联等;
2. 探索多模态大模型在下游任务中的技术能力,包括但不限于图文对齐/识别、跨模态理解生成、多模态检索、VLM端到端自动驾驶、世界模型等;
包括英文材料
NLP+
OpenCV+
Python+
还有更多 •••
相关职位

logo of xiaohongshu
实习大模型

【职位描述】 我们是小红书安全风控平台部/算法策略组/内容安全组,目前专注于多模态大模型在多模态理解和内容安全场景的技术落地和产品预研,目前在相关数据&技术方向有一定的积累,并将长期持续投入。我们希望寻求优秀在读硕士生/博士生共同突破大模型在安全审核行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于: 1. 基础多模态表征:主要研究小红书多模态数据(笔记)下的基础多模态表征工作,包括层次化表征、特征融合、自监督探索等,作为基础模型,支持多样化检索场景。 2. 通用多模态大模型:通用多模态大模型在安全领域理解相关研究,包括高效微调、多模态理解等。建立安全多模态基础模型。

北京
logo of bytedance
社招A259978A

团队介绍:广告业务原为商业产品与技术部门,为抖音集团的商业变现提供广告产品与技术,负责端到端大型广告系统建设,覆盖抖音、今日头条、西瓜视频、番茄小说、穿山甲等产品矩阵,践行"激发生意新可能"理念,致力于让营销更省心、更高效、更美好,推动商业的可持续增长,让不分体量、地域的企业及个体,都能通过数字化技术激发创造、驱动生意。连接广告主、用户及生态伙伴、成为开放共赢的全球最佳智能营销平台之一。在这里,你将投身建设面向未来的数字营销能力,接触到全球先进的商业产品架构、模型和算法,在互联网广告行业始终创新。 课题介绍: 1、核心技术架构: 1)下一代广告技术栈: 模型算法层:搭建基于强化学习的智能出价与流量预估系统,攻克深层转化场景下的数据稀疏、多源异构数据融合(延迟数据/埋点噪声/跨平台行为)等行业难题; 系统工程层:构建支持基于长序列特征的实时预估框架,研发支持动态创意组合的自动化投放引擎; AIGC融合层:建立文/图/视频多模态生成技术中台,实现从IP素材生成到智能投放的全链路闭环; 2)行业首创的AIGC解决方案: 正在搭建全球领先的"小说→漫剧"智能生产线,攻克三大技术堡垒: 多模态叙事引擎:研发支持角色一致性保持(Character-aware Diffusion)、分镜自动生成(Storyboard LLM)、动态运镜控制(Camera ControlNet)的复合型生成框架; 工业化工作流:构建支持分布式渲染、多版本AB测试、合规性审核的智能生产管线,实现日均千级素材产能; 投放增效系统:开发生成质量量化评估模型(QAGAN),建立素材生成-投放效果的反哺优化机制; 2、岗位挑战: 你将主导: 构建支持沿模型的混合推理框架,优化多卡并行下的生成效率; 设计跨模态对齐算法,提升文字指令到视觉元素的可控生成精度; 研发基于用户行为分析的智能素材变异系统,实现CTR提升30%+的个性化内容生成; 打造从内容生产到实时竞价的全自动化广告引擎; 3、我们期待这样的开拓者: 精通Diffusion Models技术栈,具有LoRA/ControlNet/T2I-Adapter等微调框架的实战调优经验; 熟悉多模态大模型(如VideoPoet、Sora等视频生成技术原理),具备跨模态表征学习研究背景; 拥有广告算法背景者优先,熟悉CVR预估、智能出价等核心模块与生成式AI的结合点; 出色的工程化能力,主导过至少一个完整AIGC项目的端到端落地(从模型训练到服务部署)。

更新于 2025-05-28北京
logo of meituan
实习核心本地商业-业

【课题说明】 外卖业务在国际市场上展现出前所未有的增长潜力,全球化运营对智能化提出更高要求。本课题致力于运用大模型技术,结合后训练、多模态、强化学习等手段,打造覆盖智能客服、智能审核、智能外呼的下一代全球服务系统,核心在于高效完成跨文化背景下的复杂任务。 【建议研究方向】 1.任务型对话的强化学习与后训练:研究如何结合强化学习激励与高效后训练方法,使大模型能精准理解并高效完成全球用户、商家及骑手提出的多模态复杂服务任务。 2.少样本多模态理解与推理:探索在数据相对稀疏的海外市场中,如何构建强大的多模态大模型,以支持对用户、骑手、商家上传图文的高效合规审核与风险识别。  3.外呼场景下的可控对话:研究通过可控生成技术并有效融入领域知识,提升大模型在招聘、商家/骑手沟通等多语言智能外呼任务中对话的自然度、信息准确性与目标达成率。

更新于 2025-05-27北京
logo of meituan
实习核心本地商业-基

随着多模态大模型的发展,虚拟人交互也迎来智能化和拟人化的升级。 传统的2D虚拟人主要专注于语音与嘴型对齐,而大模型时代的虚拟人需具备多模感知和推理的能力,视觉生成需具备高度拟人化。课题研究内容包括但不限于: 1)基于多模态大模型构建端到端交互虚拟人模型,实现智能双工交互,人、物、场景交互,高度拟人化等能力。 2)Human Video Model:构建具备高质量人脸、人体、人物交互生成能力的虚拟人基座。

更新于 2025-05-23北京|上海