蚂蚁金服蚂蚁集团-Agent Infra 研发工程师-北京/杭州
任职要求
1. 一年以上大规模基础设施研发实践经验,熟悉 Python 或 Golang 研发,熟悉微服务架构、分布式计算、AI Agent 系统、沙箱技术等任一领域的专业知识; 2. 对浏览器工作原理有经验的优先,能深入理解浏览器的运作机制,如渲染引擎、JavaScript 引擎以及网络传输协议优化等; 3. 对 Linux 操作系统、图形虚拟化、手机模拟器有经验的优先,有 AI…
工作职责
负责 AI Agent Infra 建设,提升 AI Agent 产品创新效率,探索生成式 AI 在数字世界的实际应用。 1. 建设 Agent SWE Infra 工程,提升 Agent 相关代码的个性化构建和发布效率; 2. 建设 Sandbox Infra 工程,为各类 Agentic 场景提供高效、稳定、大规模的模拟器、多工具、图形交互的沙箱环境; 3. 建设 Serving Infra 工程,为生产提供通用的 Agent 服务化框架,优化 LLM 和 Agent 性能,保障高可用运行。
1. 参与AI Infra 基础设施平台或者面向金融、风控、营销、Web3、企业服务等AI应用场景的智能体(Agent)系统的设计、开发与优化; 2. 参与基于大语言模型(LLM)或多模态模型的智能体核心模块研发,包括但不限于任务规划、工具调用、记忆机制、对话管理、推理引擎等, 探索和实现智能体在复杂业务场景中的落地应用,如智能客服、自动化流程、决策辅助、数字员工等; 3. 参与AI Infra 平台系统架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性; 4. 与算法、产品、数据及业务团队紧密协作,推动智能体系统的全链路端到端交付与迭代; 5. 跟踪前沿技术进展,通过AI Coding 持续提升系统智能化水平与工程效率。

1. 作为产品与客户的桥梁,深入理解云电脑所采用技术原理、产品架构和应用场景,结合阿里云整体产品能力,针对不同场景需求提供专业解决方案建议,助力客户端侧算力需求上云; 2. 洞察行业应用和技术趋势以及结合客户日常使用反馈,以场景竞争力需求,推动产品改进及用户体验提升,持续挖掘新的市场机会; 3. 与前线BTE/SA协作,深耕行业头部客户,对客户需求分析、技术方案设计、POC验证和成功交付全流程负责,实现产品商业化目标; 4. 结合客户场景,对云电脑、端侧AI以及Agent infra需求,结合产品能力以及案例实践进行解决方案开发和验收,完善解决方案竞争力和可交付性,与PD、研发、运营合作,推动产品GTM活动。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 若你对以下一个或者多个方向感兴趣均欢迎投递: 1)多模态基础模型的研发,包括融合视觉语言的跨模态理解模型设计,提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing 等核心能力,并同时优化多模态大模型的AI infra。 2)通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,构建支持网络世界(PC/Mobile/Web/游戏)交互的通用智能体,将相关能力拓展到GUI agent,VLA,以及具身智能场景中。 3)研究理解与生成统一的模型架构,实现跨模态生成与推理的协同优化。 工作职责: 1. 多模态 pre-training:开展研究及进行实验,研究内容包括:数据清洗筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law 预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态 post-training:迭代 post-training 训练策略(SFT/RLHF),专项能力数据迭代,参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用 agent:通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,打造多模态的 test scaling laws,并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成:构建视觉统一理解生成大模型,推进多模态统一生成与理解的推理和交互新范式。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 视觉语言理解能力是Qwen最重要的能力之一,围绕 LLM 建设出具有视觉深度理解与推理能力的基座模型是团队的必经之路。结合视觉理解和推理能力的基础模型,将拓展到视频理解,GUI Agent,以及VLA 和机器人等场景中。团队负责:1)多模态基础模型的研发,包括融合视觉语言的跨模态理解模型设计,提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing等核心能力,并优化多模态大模型AI infra;2)探索多模态Agent和推理能力,构建支持网络世界(PC/Mobile/Web/游戏)交互的通用智能体;3)研究生成与理解统一的模型架构,实现跨模态生成与推理的协同优化。 工作职责 1. 多模态Pre-training:开展研究及进行实验。研究内容包括:数据清洗与筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态Post-training:迭代Post-training训练策略(SFT/RLHF),专项能力数据迭代,参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用Agent:通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,打造多模态的Test Scaling Laws,并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成:构建视觉统一理解生成大模型,推进多模态统一生成与理解的推理和交互新范式。