通义研究型实习生-大语言模型多智能体研究
任职要求
候选人应为:
1.计算机及相关专业的博士或硕士研究生,且大模型技术及其应用充分的…工作职责
随着人工智能技术的发展,尤其是自然语言处理领域的大语言模型的突破,为企业和个人带来了前所未有的机遇。在这一背景下,大语言模型智能体的应用成为推动业务创新的关键驱动力。 为了进一步推动大语言模型智能体的发展和应用,本项目将聚焦以下几个方面: 1. 增强智能体的多功能性和灵活性:目前,大语言模型智能体已经能够在多个场景中发挥作用,但是其功能性和灵活性仍有待提升。我们希望通过持续的模型训练和微调,使智能体能够更好地理解和响应用户的多样化需求,从而提供更加精准的服务。 2. 工具学习和集成:智能体需要能够学习和利用外部工具来完成特定任务。这包括但不限于数据检索、数据分析、第三方API调用等。我们计划开发一套工具学习框架,使得智能体能够自动识别哪些工具对于完成特定任务最有帮助,并能够有效地调用这些工具。
研究领域: 人工智能 项目简介: 【攻击】蚁鉴作为蚁天鉴大模型安全一体化解决方案的重要组成部份之一,聚焦于大语言模型潜在输出内容安全的主动挖掘和模型安全能力的量化评测。随着大模型的应用场景不断扩增,使用场景不断多样化,模态增加,agent组件增加,其暴露出来的潜在风险问题也随之扩大。我们希望通过建立一套自动化选件红队体系,挖掘更多的风险,研发更高攻击成功率的方法。从而更快,更全面地发现风险,评估风险,解决风险。当前评测遇到挑战: 1、如何批量的自动发现扫描未知的安全风险; 2、多模态agent 大模型安全评测方案设计; 3、如何对非API的复杂智能体(例如支小宝)进行评测; 4、大模型其他安全问题的研究,例如:能耗攻击,后门,可解释性等; 【防御】大模型对齐作为蚁天鉴安全护栏核心能力之一,对于不安全或者有攻击性的query,在response的价值观等安全性方面往往能表现出更加优秀的性能,在安全链路中发挥着及其重要的作用。 然而,内容安全大模型依然存在大模型的不足: 1. 与语言模型相比,多模内容安全大模型在内容的理解和生成存在许多跨域风险的理解与对齐问题。 2. 幻觉问题,对于一些低频知识依然存在幻觉,特别是在涉政场景,幻觉问题的影响会被放大。 3. 模型难以可控生成,对于一些紧急badcase修复和业务调整依然需要大量数据重新训练成本较高,无法进行及时高效地局部模型知识更新。 4. 推理模型安全性研究与防控。
1. 探索研究多模态大模型、GUI agent、AI memory、多模态RAG等前沿技术。 2. 参与研发多模态、全模态大模型等下一代人工智能核心技术,探索面向真实环境的多模态智能体多轮强化学习,提升大模型能力。 3. 负责跟踪和研究多模态大模型前沿技术调研、落地、对业务进行优化。
1. 探索研究多模态大模型、GUI agent、AI memory、多模态RAG等前沿技术。 2. 参与研发多模态、全模态大模型等下一代人工智能核心技术,探索面向真实环境的多模态智能体多轮强化学习,提升大模型能力。 3. 负责跟踪和研究多模态大模型前沿技术调研、落地、对业务进行优化。
随着大模型与智能体系统的发展,数据正从“静态燃料”演变为“动态认知基础设施”。传统数据处理范式难以满足Agent工作流、强化学习、RAG等新场景对语义理解、任务适配与反馈闭环的需求。一系列重要问题亟需重新思考:什么是面向未来 AI 系统的“高质量数据”?如何构建可解释、可组合、可迭代的数据智能框架? 我们隶属于通义实验室,长期聚焦 AI 基础设施与数据智能方向。团队已在ICML、NeurIPS、ICLR、SIGMOD、KDD、WWW等国际顶会发表论文数十篇,多次获 Spotlight 与 Best Paper,主导开源 DataJuicer、AgentScope、Trinity-RFT 等框架。相关成果广泛应用于学术界与工业界,支撑阿里云、通义大模型、百炼平台等内外部业务。 现诚邀具备扎实科研能力与工程素养的候选人加入,你将参与: 1. 探索如何让数据处理系统“听懂”任务语义,自动生成可验证、可复用、可优化的数据流水线; 2. 研究高性能方法,量化建模文本、图像、轨迹等数据对下游任务的实际价值,构建数据健康评估体系; 3. 面向智能体经验管理、RAG 上下文筛选、多模态日志分析等真实场景,设计新型数据原语与评估基准; 4. 建设开源框架(DataJuicer、AgentScope、Trinity-RFT),发表高水平论文或技术成果,推动社区对“数据智能”的前沿探索。