蚂蚁金服研究型实习生-大模型agent UI plan能力研究
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的…
工作职责
研究领域: 人工智能 项目简介: 随着多模态大模型的性能持续提升,用户指令的意图理解、路径规划、慢思考决策、精细化执行等方向近期均取得了长足的进步,使得Phone-Use从RPA时代进入智能时代。本项目重点研究Intelligent Phone/Computer Use Agent,从底层领域基座、到上层应用,打造Agent Native Model和AI Native的Agent产品,为业务场景带来新的突破。
研究领域: 人工智能 项目简介: AI智能体以强大的自主规划执行能力和广阔的应用前景引发了科技界的密切关注和巨大投入。本项目重点关注智能体的能力突破,在以下领域深耕创新、探索前沿,打造Agent Native Model和AI Native的智能体产品。 1. UI Agent:AI自主完成复杂的Phone/Computer/Browser Use任务 2. 深度研究:AI自主完成通用的深度研究型的任务,动态规划、灵活调用多种工具或智能体 3. 安全深度分析:深入理解安全风控领域的任务要求,掌握领域工具,提供专业深度的分析、提前发现风险/治理漏洞
研究领域: 人工智能 项目简介: 【攻击】蚁鉴作为蚁天鉴大模型安全一体化解决方案的重要组成部份之一,聚焦于大语言模型潜在输出内容安全的主动挖掘和模型安全能力的量化评测。随着大模型的应用场景不断扩增,使用场景不断多样化,模态增加,agent组件增加,其暴露出来的潜在风险问题也随之扩大。我们希望通过建立一套自动化选件红队体系,挖掘更多的风险,研发更高攻击成功率的方法。从而更快,更全面地发现风险,评估风险,解决风险。当前评测遇到挑战: 1、如何批量的自动发现扫描未知的安全风险; 2、多模态agent 大模型安全评测方案设计; 3、如何对非API的复杂智能体(例如支小宝)进行评测; 4、大模型其他安全问题的研究,例如:能耗攻击,后门,可解释性等; 【防御】大模型对齐作为蚁天鉴安全护栏核心能力之一,对于不安全或者有攻击性的query,在response的价值观等安全性方面往往能表现出更加优秀的性能,在安全链路中发挥着及其重要的作用。 然而,内容安全大模型依然存在大模型的不足: 1. 与语言模型相比,多模内容安全大模型在内容的理解和生成存在许多跨域风险的理解与对齐问题。 2. 幻觉问题,对于一些低频知识依然存在幻觉,特别是在涉政场景,幻觉问题的影响会被放大。 3. 模型难以可控生成,对于一些紧急badcase修复和业务调整依然需要大量数据重新训练成本较高,无法进行及时高效地局部模型知识更新。 4. 推理模型安全性研究与防控。
专注于LLM post-training和agent相关算法研究,具体职责包括: 1、探索LLM可解释性 + 模型增量CPT/RL算法,提升语言模型在专业领域上的能力; 2、探索LLM可解释性 + 低比特量化算法,降低模型training/inference阶段计算成本; 3、探索agent 增强微调算法,提升模型在专业领域上端到端解决复杂任务的能力; 4、将相关算法研究成果发表在国际顶级会议上(ICLR/NeurIPS/ICML/ACL); 5、将相关算法研究成果应用于模型低比特量化、海外大模型业务中,显著提升阿里云通义千问模型服务效率和沙特等国家主权大模型线上效果。
专注于LLM post-training和agent相关算法研究,具体职责包括: 1、探索LLM可解释性 + 模型增量CPT/SFT/RL算法,提升语言模型在专业领域上的能力; 2、探索LLM可解释性 + 低比特量化算法,降低模型training/inference阶段计算成本; 3、探索agent 增强微调算法,提升模型在专业领域上端到端解决复杂任务的能力; 4、将相关算法研究成果发表在国际顶级会议上(ICLR/NeurIPS/ICML/ACL); 5、将相关算法研究成果应用于模型低比特量化、海外大模型业务中,显著提升阿里云通义千问模型服务效率和沙特、日本等国家主权大模型线上效果。