通义研究型实习生-视觉信息驱动的多模态搜索研究
任职要求
1、计算机及相关专业的博士或硕士研究生; 2、优良的沟通表达能力、团队合作意识和经验;具备快速学习的能力,以及深入钻研技术问题的耐心; 3、拥有扎实的编程基础和出色的工程实现能力; 4、在相关领域(…
工作职责
专注与多模态预训练语言模型驱动的视觉搜索模型训练和优化,具体职责包括: 1、探索基于VLM的视觉信息多模态搜索训练数据合成方案; 2、深入优化融合视觉信息搜索能力的模型最优训练策略, 包括弹性维度支持、稀疏表征训练、单向量/多向量压缩等多种方法,旨在构建高效且具备强视觉感知能力的多模态搜索模型; 3、探索面向文本、图像与视频输入的统一视觉信息搜索模型训练, 通过构建跨模态、跨语言及多粒度的统一表示空间,解决不同模态之间语义对齐与表征一致性的问题,实现更加通用和鲁棒的视觉信息搜索能力。
依托淘宝、天猫超大规模商业场景,我们致力于通过最前沿的多模态大模型技术驱动万亿级交易额的增长。在这里你将面对业界最复杂的电商图文、视频语境,与顶尖团队一起探索 AIGC 与多模态技术在搜索广告全链路(召回、排序、创意生成)的深度融合与变现。包括并不限于: 1. 负责电商多模态统一表征: 构建面向海量商品、直播、短视频的超大规模预训练模型(VLM),解决多模态语义对齐、细粒度特征提取及跨模态检索难题。 2. 负责生成式广告物料(AIGC): 探索 Diffusion Model、LLM 在广告创意自动生成(文案、头图、视频步进)中的应用,提升物料投放质量与点击转化率。 3. 负责多模态驱动的商业决策: 将多模态感知能力深度注入广告全链路(从搜索词理解到广告 CTR/CVR 预估),实现从“看懂图片”到“理解意图”的决策升级。 4. 负责全链路多物料优化: 针对商品、直播间、短视频等多类型物料,设计统一的跨模态排序算法,优化搜索场景下的多元流量分配效率。 5. 负责视觉底层技术创新: 针对电商复杂场景,优化 OCR、商品检测、度量学习及视觉搜索等经典任务,建立行业领先的视觉基座。
3D数字人技术作为一项前沿科技,在娱乐、教育、医疗等多个领域展现出巨大的应用潜力。近年来,视觉语言大模型的突破性进展,为3D数字人的多模态交互提供了新的契机。我们希望研发新的模型、算法,利用多模态基础模型的跨模态信息处理能力,提升了3D数字人和用户交互的真实感和沉浸感,从简单的命令响应式交互向情感计算、意图理解等高级功能转变。
职位描述(Job Description): 你将加入高德地图核心算法团队,在资深算法专家的指导下,探索大模型(LLM/多模态)与推荐系统的深度结合。你将有机会接触亿级用户规模的真实业务场景,参与从前沿技术研究到工程落地的全过程。 你将参与或负责以下工作内容(包括但不限于): 大模型前沿探索: 参与 Qwen-VL、InternVL 等多模态大模型及 LLM 在高德业务场景下的微调(SFT)、对齐(RLHF)及 Prompt 优化,探索生成式推荐的新范式。 推荐算法优化: 深入理解高德核心业务(如首页推荐、目的地预测),协助优化召回、排序(粗排/精排)、重排等核心模块,提升 CTR、CVR 等关键业务指标。 用户行为建模: 利用深度学习技术挖掘用户长短期兴趣,结合高德特有的时空数据,进行下一站预测和场景化意图推理。 多模态内容理解: 处理海量图像与文本数据,构建高质量的内容表征体系,解决冷启动问题,提升内容分发效率。 数据分析与实验: 深入分析业务数据,设计并跟进 AB 实验,通过数据驱动的方式验证算法效果并进行迭代。 你将获得: 核心业务场景: 接触高德亿级日活用户的真实数据,解决极具挑战性的时空推荐问题。 大牛导师带教: 资深算法专家一对一指导,提供清晰的成长路径和技术辅导。 前沿技术落地: 拥有充足的算力资源(GPU集群),亲手将大模型技术落地到实际产品中。 转正机会: 表现优异者可获得校招转正 Offer 或 绿色通道面试资格。
欢迎加入阿里巴巴数字人团队! 如果你对以下领域感兴趣,并希望在实际项目中积累经验,欢迎加入我们! 你将参与的工作: 个性化数字人形象生成系统 在海量用户数据和先进技术支持下,协助开发能够生成千人千面个性化虚拟形象的系统。 学习并应用基础的图像处理和生成模型,帮助提升系统的定制化能力。 高表现力肢体表情驱动技术研发 参与研发基于动作捕捉、表情合成和实时渲染技术的数字人表情和肢体动作驱动系统。 协助优化现有技术,使数字人的表情和动作更加自然流畅,增强情感表达能力。 核心技术难题攻克 在导师指导下,学习和探索基于扩散模型的高质量数字人生成技术。 多模态统一大模型的应用 了解并参与多模态信息融合的研究,结合图像、文本、音频等多种信息,构建具备理解能力和生成能力的数字人系统。 协助解决业界尚未突破的技术瓶颈,推动技术创新。 相关研究课题细分方向: 数字人形象定制与风格化迁移 协助开发和优化数字人形象定制生成能力,适配不同的实时互动场景。 学习并应用基本的图像处理和生成算法,提升系统的灵活性和适应性。 数字人表情与肢体动作驱动 在导师指导下,参与数字人表情和肢体动作驱动技术的研发。 协助测试和优化现有系统,使其表现力更接近真人水平。 数字人多模态理解感知能力 参与构建数字人与用户的实时交互系统,提升其理解和响应能力。 协助进行多模态信息融合实验,增强数字人的个性化服务能力。 我们期待你是: 计算机科学、软件工程、人工智能等相关专业的在校学生(本科或研究生)。 对数字人技术有浓厚兴趣,愿意在实践中学习和成长。 具备一定的编程基础(如Python、C++),熟悉常用的数据处理和机器学习框架(如PyTorch、TensorFlow)者优先。 良好的团队合作精神和沟通能力。 加入我们,你将获得: 丰富的实战经验和前沿技术的学习机会。 导师一对一指导,助力你的职业发展。 参与影响亿级用户的大规模项目,感受技术带来的巨大价值。 开放包容的工作环境和充满活力的团队氛围。 让我们一起定义未来数字人的无限可能,期待你的加入!