阿里云研究型实习生 - RAG场景下大模型生成幻觉优化
任职要求
1、实际落地的RAG幻觉优化工业级方案,包括高精度的幻觉识别和修正策略,低幻觉率rag大模型,…
工作职责
RAG(检索增强生成)在实际应用中仍存在较大比例的生成幻觉,在客户的业务场景下可能误导用户甚至造成资损。RAG场景下幻觉主要指生成内容与上下文内容不一致,这主要源自通用大模型本身理解和逻辑推理能力缺陷,因此,如何提升大模型在RAG场景下的理解和逻辑推理能力成为了RAG系统效果提升的关键问题。提升理解和逻辑推理能力依赖于高质量的训练数据、高效的学习算法及准确的自动评测方法,这些目前都没有成熟解决方案,是RAG幻觉优化的主要挑战。本项目希望与高校研究生合作,探索RAG幻觉优化的相关理论和基础算法,解决实际RAG场景中的幻觉问题。
随着近些年机器学习与表征学习的发展,非结构化数据的查询和分析变得更加普遍。通过表征学习,我们可以把图片或文本嵌入到高维空间从而用高维向量来代表这些图片或文本。进一步的,通过在高维空间中查找最近邻,我们可以对非结构化数据进行语义搜索。例如,通过检索增强生成技术(RAG),我们可以将外部知识或领域知识进行向量化,利用向量空间中的近邻搜索得到对应的原始知识,对大语言模型的生成结果进行增强,来减少大模型出现幻觉或知识过时的现象。 为了提升数据库产品对AI应用的支持,阿里云瑶池数据库也全面提升了向量检索能力,在PolarDB、RDS、AnalyticDB、Lindorm、Tair等产品中集成了向量功能,实现结构化数据、半结构化数据、多模数据、向量数据的一体化处理。 然而,目前向量索引主要关注查询速度和准确率,对于实际复杂场景下的搜索问题还没有足够的研究。例如,分布式架构下的向量查询索引、结构化与非结构化数据的联合查询,以及数据动态增删场景下的索引优化等问题,都需要进一步探索和研究。
职位描述(Job Description): 你将加入高德地图核心算法团队,在资深算法专家的指导下,探索大模型(LLM/多模态)与推荐系统的深度结合。你将有机会接触亿级用户规模的真实业务场景,参与从前沿技术研究到工程落地的全过程。 你将参与或负责以下工作内容(包括但不限于): 大模型前沿探索: 参与 Qwen-VL、InternVL 等多模态大模型及 LLM 在高德业务场景下的微调(SFT)、对齐(RLHF)及 Prompt 优化,探索生成式推荐的新范式。 推荐算法优化: 深入理解高德核心业务(如首页推荐、目的地预测),协助优化召回、排序(粗排/精排)、重排等核心模块,提升 CTR、CVR 等关键业务指标。 用户行为建模: 利用深度学习技术挖掘用户长短期兴趣,结合高德特有的时空数据,进行下一站预测和场景化意图推理。 多模态内容理解: 处理海量图像与文本数据,构建高质量的内容表征体系,解决冷启动问题,提升内容分发效率。 数据分析与实验: 深入分析业务数据,设计并跟进 AB 实验,通过数据驱动的方式验证算法效果并进行迭代。 你将获得: 核心业务场景: 接触高德亿级日活用户的真实数据,解决极具挑战性的时空推荐问题。 大牛导师带教: 资深算法专家一对一指导,提供清晰的成长路径和技术辅导。 前沿技术落地: 拥有充足的算力资源(GPU集群),亲手将大模型技术落地到实际产品中。 转正机会: 表现优异者可获得校招转正 Offer 或 绿色通道面试资格。
1. 研究并探索大规模语言模型及多模态大模型在推荐系统可解释性生成中的应用,包括基于大模型的解释生成、用户意图理解与个性化解释优化; 2. 跟进并研发大模型的关键技术链路,包括SFT、RLHF等,提升解释内容的准确性、自然性与用户可接受度; 3. 构建推荐-解释联合建模框架,融合RAG、COT、Agent 推理等技术,实现动态、透明、可信的推荐决策过程; 4. 探索多模态大模型在推荐场景下的可解释性表达能力,支持跨模态解释生成与用户交互;结合工业级推荐场景(如电商),推动研究成果落地,并持续优化线上效果与用户体验; 5. 撰写高水平学术论文,和业界、学术界保持良好的交流。
职位描述 你将加入高德地图核心算法团队,在算法专家的指导下探索大模型(LLM/多模态)与推荐系统的深度结合。你将有机会接触亿级用户规模的真实业务场景,参与从前沿技术研究到工程落地的全过程。 你将参与或负责以下工作内容(包括但不限于): 1.用户兴趣预测:基于生成式大模型解析用户行为与商品/内容语义,构建⽤户需求预测模型,提升推荐场景的转化与⽤户体验; 2.端到端⽣成式链路:探索端到端生成式范式,替代传统多阶段漏斗链路流程,基于强化学习融合业务逻辑,建设出具备⾼效scaling能力的生成式算法新链路; 3.重排范式创新:借鉴生成式大模型技术构建生成式重排创新范式,通过Reward model + 强化学习实现端到端序列整体生态价值建模; 4.深入研究和理解大模型预训练、微调与强化学习技术,结合搜推业务目标持续优化模型效果。