阿里云研究型实习生 - 智能多模态向量索引架构研究
任职要求
1.计算机科学博士/硕士在读,在数据库、人工智能、系统等领域有顶会论文发表经验优先; 2.熟悉PostgreSQL/MySQL等数据…
工作职责
1.研发融合结构化查询与向量检索的混合执行引擎; 2.设计基于深度学习的索引参数自优化框架; 3.开发分布式环境下的动态负载均衡算法; 4.构建多维度查询性能评估指标体系。
RAG(Retrieval-Augmented Generation)检索增强生成技术伴随着LLM技术爆发迅速发展,广泛应用于文档问答、智能客服、技术支持等实际业务场景。 在上述场景中,除了纯文本内容效果已经发展到一定水平,图片、表格、代码等多模态的内容的RAG还处于比较初级阶段,目前技术很难解决实际业务问题。 多模态RAG效果重要的效果瓶颈之一在于多模态检索技术,如何将多模态信息统一表征到同一个向量化空间中,结合向量检索技术提升多模态检索效果是很有挑战的问题。 除了上述场景,多模态RAG通过和音频、视频等模态的结合,必定还有更多的业务场景可以挖掘。
职位概述 我们正积极招募对人工智能充满热情的应届硕士及以上学历的优秀毕业生,加入我们的AI研究团队。作为一名AI研究工程师,您将有机会参与设计和开发创新的端到端人工智能系统,推动企业工作流程自动化的前沿实践。本岗位旨在为新一代AI人才提供从理论到实践的快速成长路径,助力您在企业级AI应用中发挥创造力与技术专长。 <hr> 主要职责 参与企业自动化、知识管理系统及智能决策支持等方向的AI研究与原型开发。 学习和运用先进AI技术,协助开发、训练并与企业工具(如ERP、CRM及大语言模型接口)集成AI模型。 与跨职能团队(数据工程、产品、业务)协作,探索自动化需求并支持AI方案的测试与落地。 参与构建和维护模型训练、评估及优化的基础管道。 跟踪AI技术动态(如基础模型、多模态AI、强化学习),分析其应用于企业场景的可行性。 通过技术文档和代码贡献,积极参与团队知识沉淀与技术创新。
随着GPT-4o等全模态大模型的突破,多模态生成与交互技术正成为人工智能领域的核心竞争方向。但当前技术在多模态深度理解、长序列生成一致性、跨模态对齐精度、实时交互智能性等方面仍面临显著挑战。 本项目聚焦音频、视觉、文本的多模态融合场景,针对长序列生成、强化学习优化、跨模态推理、表征学习等关键技术进行攻关,旨在构建具备深度思考能力、高可控性、强交互性的新一代智能多模态系统,推动AI技术在音乐创作、实时对话、音视频生成等领域的产业化应用。
随着大语言模型(LLM)在搜推广领域的深入应用,如何高效地将海量商品/内容信息与世界知识结合,成为突破推荐算法上限的关键。 本岗位重点探索生成式推荐中的核心基础设施——语义ID(Semantic ID)的构建。致力于解决现有ID体系维度单一、表达受限的问题,探索语义ID更丰富的兴趣表达。 具体职责: 1. 前沿跟进:研究生成式推荐前沿技术,快速跟进RecSys/KDD/SIGIR/ACL等顶会最新论文,探索语义ID与LLM的更佳的应用范式,并且在实际业务数据上验证。 2. 多兴趣表征:深入研究协同&多模态语义协作机制,探索多兴趣表征构建,,解决多维兴趣样本在训练过程中的Loss拉扯问题,探索基于图或对比学习等改进方案,构建更稳健的Item-to-Token映射机制。 3. 多兴趣语义ID:突破现有层级化方案(如RQ-VAE/RQ-Kmeans)仅能进行单一维度(如类目或单兴趣)表达的局限,将多兴趣表征进行量化。 4. 生成式LLM赋能:将构建的多兴趣语义ID应用于推荐场景的生成式大模型(LLM)训练中,降低训练/推理成本,提升模型对用户复杂行为序列的理解与生成能力。 5. 技术沉淀:负责实验数据的分析与整理,撰写技术报告;若产出具有创新性的研究成果,支持以第一作者身份发表顶级会议论文或申请专利。