蚂蚁金服蚂蚁集团-Agentic RL算法专家-杭州/北京
任职要求
1、教育背景优秀,计算机相关专业研究生; 2、有较好的计算机科学和算法基础,编程能力强; 3、有代码/自然语言/多模态大模型、深度序列/生成模型、时序分析等相关技术或者落地经验者优先; 4、产出需在论文、开源、比赛成绩、项目上满足1条或者多条; 4a、算法研究背景在诸如ICML/ICLR/NIPS、ACL/EMNLP/KDD、CVPR/ICCV/ECCV等会议有相关论文发表者优先; 4b、应用系统研究背景在诸如WWW、SIGMOD/VLDB…
工作职责
1、核心算法研发:主导Agentic RL及多智能体(Multi-Agent)算法的研发,融合大模型和多模态(LLM/VLM)的推理能力。 2、训练框架优化:负责RL训练框架的性能调优与迭代,提升大规模训练效率。 3、智能体构建与落地:构建面向真实场景的智能体,包括但不限于GUI Agent、代码Agent、根因分析(RCA)Agent等,驱动业务创新。
ASystem 会探索和构建高性能的 AI 强化学习基础系统,让语言交互、智能体、具身智能等各类 AI 场景都能基于这个基础系统走向高效的自我演进,迈向更高的智能水平。 1. 研发 Agentic 强化学习工程,包括 Agentic RL 算法、长上下文训练加速、多轮轨迹交互等能力; 2. 研发工具和 Agent 合成工程,包括 toolUse、SWE、computerUse、browserUse、Mutil-Agents 等场景; 3. 研发环境工程和高性能 sandbox 引擎技术,包括多语言执行环境、桌面虚拟化渲染、大型程序虚拟环境等场景,满足大规模并发调用、极速启动、安全隔离等能力;
1. 探索研究多模态大模型、GUI agent、Agentic RL、AI memory、多模态RAG等前沿技术。 2. 参与研发多模态、全模态大模型等下一代人工智能核心技术,探索面向真实环境的多模态智能体多轮强化学习。 3. 负责跟踪和研究多模态大模型前沿技术调研,参与多模态大模型to C和to B业务场景落地。
大模型开启了崭新的智能化时代,代码智能化将是智能化革命的核心力量。围绕AI Coding,从code model到coding copilot再到coding agent,我们进行了深入的技术建设,打造了国内最受欢迎的智能编码助手通义灵码,并不断探索新的产品形态,欢迎一起来做改变世界的代码智能技术,具体详见:https://tongyi.aliyun.com/lingma 职位描述: 1. 负责软件工程大模型(Agentic LLM for Software Engineering)的训练和研究等,包括但不限于Agentic RL、Reward Systems、Environment Scaling等。 2. 打造自主编码智能体的核心技术,包括但不限于Memory、Context Engineering、Tools-use、Reasoning等。 3. 将上述技术在通义灵码及其他创新产品中进行大规模应用落地。
团队介绍 通义实验室专注于通用人工智能(AGI)、大模型基础研究及行业应用创新。我们以前沿技术探索为驱动,推动大模型赋能千行百业,助力AI创造社会价值,服务云上生态合作伙伴。通义文档智能团队围绕长文本理解、文档写作、文档智能体和文档解析基础技术,专注于文档理解、推理、生成大模型的研究、探索和开发,依托集团业务场景与技术生态,推动前沿 AI 技术落地,打造多款通义产品如QwenLong、通义数据挖掘应用(QwenDoc)和文档智能解析产品Document Mind等。 职位描述 专注于文档理解、推理、生成大模型的研究、探索和开发,具体职责包括: 1. 通过研究超长上下文管理和记忆技术、模型自进化、long cot、数据自动合成技术等提升超长文本、多文档能力; 2. 长文本强化学习基础技术研究,包括long-context reasoning RL、open-ended generation RL、long-context agentic RL。重点解决长文本强化学习训练稳定性和推理过程监督问题,提升文档大模型长文推理能力、创作生成能力、文档agentic智能,发表高水平论文、techreport; 3. 研究深度文档创作技术,在SFT、RL阶段探索提升策略,优化reward model在创作任务上的判别精度和泛化性能,提升大模型的写作、纠错、改写、仿写、编辑、风格化、长文本输出等创作能力,设计完善的评估体系; 4. 研究多模态文档解析和理解技术,提升多模态文档细粒度理解、多模态多页长文档、表格理解、多模态推理等技术。