蚂蚁金服研究型实习生-多模态长序列理解与复杂视觉任务推理
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的相关经验,包括行业经验或作为参与实验室研究 优先录用: -对技术研究充满热情,具有产生新思想和创新的能力; 在自学,问题分析和解决方面表现出色 -在国际会议上或核心期刊发表一份或多份出版物或论文 -至少3个月的全职工作
工作职责
研究领域: 人工智能 项目简介: 多模态长序列理解: 对多模态长序列理解能力的提升可以广泛应用在小时级长视频理解、多页长文档报告解读等场景,本项目主要探索提升多模态大模型对长序列的建模能力,构建多模态"大海捞针"benchmark, 并在多模态长序列理解任务如长视频理解、多页文档解析等任务上实现SOTA效果; 复杂视觉任务推理: 思维链在大语言模型已经取得了显著进展,但在多模态大模型中进展有限,制约了多模态模型在复杂推理任务中的表现,主要存在以下痛点:多模态复杂推理数据缺乏、视觉模块的感知局限性、缺乏成熟的多模态的推理scaling law方法。本研究重点推进基于RL的多模态推理Scaling law, 以提升百灵多模态大模型在复杂多模态推理任务上的业界的领先性。
随着GPT-4o等全模态大模型的突破,多模态生成与交互技术正成为人工智能领域的核心竞争方向。但当前技术在多模态深度理解、长序列生成一致性、跨模态对齐精度、实时交互智能性等方面仍面临显著挑战。 本项目聚焦音频、视觉、文本的多模态融合场景,针对长序列生成、强化学习优化、跨模态推理、表征学习等关键技术进行攻关,旨在构建具备深度思考能力、高可控性、强交互性的新一代智能多模态系统,推动AI技术在音乐创作、实时对话、音视频生成等领域的产业化应用。
业务丰富,技术领先 高德打车算法团队深度赋能打车业务全链路,涵盖 用户增长、风控、服务管控、路线与上下车点推荐、ETA 预估、智能客服 等核心场景。多样化的业务挑战为算法创新提供了广阔的发挥空间,团队已在 AI 顶级会议发表成果。 精英阵容,国际视野 团队成员来自泰晤士世界大学排名 Top 10 的高校,以及美国常青藤、清华、北大等顶尖院校,兼具国际化背景与一流技术视野。 持续成长,共享共进 团队每周固定进行技术分享,氛围开放、互助友好;除了解答算法与工程难题,资深同事还会分享项目经验,并传授业务理解与问题解决的方法论,助你快速成长。 我们正在寻找相关专业的优秀实习生,一同探索前沿大模型技术及推荐营销算法在共享出行领域的深度应用,共同攻克业界难题,优化产品体验。 在这里,你将参与高德共享出行核心业务的大模型技术落地、推荐营销算法建设等,包括但不限于: 大模型方向:将大模型技术深度应用在高德打车核心链路上,包括多模态大模型、AIGC、SFT、RLHF、高效推理等,提升平台效率和用户体验; 推荐营销方向:利用深度学习、基于大模型的下一代推荐营销算法等,基于海量用户数据,进行高德打车全链路的推荐营销算法构建和迭代,包括多任务学习、多场景建模、序列决策、因果推断建模、应答时长预测等; 在这里,你的算法将直接服务全国数亿级用户,带来真实而深远的影响;你能接触到前沿大模型、多模态、强化学习等核心技术,并与顶尖同事共创,在开放包容的创新氛围下,发挥AI创造力。
1.负责包含文本、视频、图片、语音等多模态数据对齐的基础大模型核心技术研发,包括 Pretrain、SFT、RL 等,持续追踪和应用领域最新技术进展; 2.预训练:跟进和研发更先进的 foundation 模型结构、训练模式、scaling law,提高训练效率和优化关键问题(如推理、长序列能力,多模态融合); 3.后训练:跟进和研发基座模型的后训练技术,充分激发模型潜力,包括但不限于高质量指令样本构建、课程学习、reasoning RL 等方向; 4.应用:通过模型与场景的深度耦合,推进大模型能力在实际业务中的最优表达,构建具备长期价值的智能 Agent; 5.结合以上方向的探索和研究,撰写发表论文,和业界、学术界保持良好的交流。
研究领域: 人工智能 项目简介: 大语言模型(LLM)和多模态大模型(MMLM)的发展为推荐系统带来了新的生机。相较于传统推荐模型依赖协同过滤信息进行建模,大语言模型因其强大的泛化和推理能力,可以更好地对物品、内容进行关联、分析用户行为和偏好,从而具备处理复杂场景中复杂用户行为的潜力。但同时,虽然大语言模型在理解和生成自然语言方面表现出色,但它们在处理推荐系统中数据稀疏、特征异构、训练和部署效率等方面仍存在众多挑战。本项目旨在对传统推荐模型、大语言模型甚至多模态大模型进行联合建模,以期取长补短,更有效地利用多模态异构信息,从而进一步提升推荐模型表现。 主要的挑战包括但不限于: 1. 大语言模型的编码效率问题:LLM的训练及推理成本随编码的信息量增加而快速膨胀,如何高效地对长用户行为序列进行多模态编码是联合建模相关探索的基础问题。 2. 多模态信息融合问题:物品、内容存在大量不同模态且异构的信息,如何有效地对多模态信息进行融合,是保障联合建模效果的重要问题。 3. 联合建模的模态差异化优化问题:不同模态在拟合速度、信息权重等方面存在天然差异,如何在联合建模过程中平衡和调节不同模块的优化是联合建模的难点。