腾讯腾讯云-AgentRuntime高级技术专家(沙箱方向)(深圳/北京)
任职要求
1.本科及以上学历,深刻理解Agentic Agent与沙箱隔离需求,理解工具副作用边界、多Agent协作对沙箱设计的约束; 2.了解大模型强化学习基本原理,理解RL Rollout对沙箱执行环境的需求; 3.熟悉MicroVM或容器方向的沙箱技术; 4.有扎实的系统工…
工作职责
1.面向大模型强化学习训练与Agentic Agent构建场景,负责Agent沙箱核心模块的架构设计与研发; 2.覆盖沙箱生命周期管理、快速启动、快照与 fork、资源隔离与安全边界等方向,将工具调用、记忆技能、长任务运行、RL Rollout 等需求转化为沙箱层能力; 3.参与Harness Engine建设,支撑确定性、可观测、可评估的Agent执行框架; 4.持续跟踪业界沙箱与Agent Infra前沿技术,推动平台技术演进,以AI Natives方式重塑团队研发模式。
负责阿里集团、阿里云战略级产品SLS研发,在日增数百PB级的超大规模实时数据之上,挑战从“经典可观测性”向“AI Native 基建”的跨越。通过实时采集、索引、存储、语义检索和分析等技术,实时处理每日数百PB海量数据,并针对AI应用场景进行特定优化,提供智能、自动化数据检索和分析服务。加入该岗位,您将有机会在国内超大规模的实时日志平台上,打造新一代的AI基础设施。 1.定义下一代 AI 数据基座: 基于现有海量日志平台,重构面向 Agent Runtime 的数据基础设施,解决高吞吐写入与低延迟语义检索共存的工程难题; 2.构建 Data + AI 飞轮: 研发高性能的数据清洗与向量化流水线,从数据中实时化萃取高质量数据,构建AI存储和检索系统,通过构建数据反馈回路,使模型和Agent持续进化; 3.超大规模系统攻坚: 维护并演进日处理百 PB 级数据的实时平台,在极致的成本与性能约束下,探索存算分离、混合索引等前沿技术落地。
Steam 部门设立于2025年1月,正如蒸汽机(Steam Engine)在工业革命 1.0 中所象征的创新开端,我们也希望以此之名,积极探索云与 AI 结合的产品方向。 在当前大模型能力日新月异的情况下,唯有坚持自己的核心价值主张和对未来的判断,且面向半年至一年后的大模型能力打造应用产品,才有一战的可能。对于大模型领域的未来进展,我们相信: 1) 大模型的智商会快速接近乃至与人类齐平; 2) 大模型的多模态理解能力,特别是视觉能力将得到长足发展; 3) 在1和2前提下,信息处理类工作将最终被 AI 接管,大量替代真人员工。 对于阿里云如何做到云+ AI,我们认为"云的最大客户会是 AI",我们的行动路径是让更多现实世界的工作量从“人类脑力劳动”转移到“云端 AI 消耗的计算资源”。 在这些认知下,我们确定了“高效完成重复任务,完整替代人类工作”的产品目标,如果你也相信这个未来,欢迎上船。 1、负责整个AI Agent平台面向C端用户功能的架构设计、技术选型和长期演进路线规划,确保架构的前瞻性、健壮性和可扩展性; 2、设计、实现并持续优化AI Agent平台的核心架构模块: •大规模弹性计算调度系模块:为平台提供一套能够管理海量Agent Runtime(容器/VM/Serverless)的计算资源调度框架,确保低时延、高效调度、安全隔离且成本可控。 •外部服务管理模块: 针对Agent对海量外部API的调用,构建一套稳定高效的接入和调度体系,包括智能API网关、可用性检查、弹性伸缩和全链路流量控制,确保该能力的稳定性不被第三方服务影响。 3、稳定性与SRE建设: 建立并领导平台的稳定性保障体系。推动全链路可观测性建设、容量规划和故障演练,将系统可用性提升至业界顶尖水平; 4、性能与成本优化: 深入分析系统瓶颈,主导性能优化项目。同时,建立准确的成本度量机制并持续优化平台成本,持续推动平台性能的提升和成本的下降; 5、参与AI Agent平台其他部分功能的架构设计与评审。
负责阿里集团、阿里云战略级产品SLS研发,在日增数百PB级的超大规模实时数据之上,挑战从“经典可观测性”向“AI Native 基建”的跨越。通过实时采集、索引、存储、语义检索和分析等技术,实时处理每日数百PB海量数据,并针对AI应用场景进行特定优化,提供智能、自动化数据检索和分析服务。加入该岗位,您将有机会在国内超大规模的实时日志平台上,打造新一代的AI基础设施。 1. 定义下一代 AI 数据基座: 基于现有海量日志平台,重构面向 Agent Runtime 的数据基础设施,解决高吞吐写入与低延迟语义检索共存的工程难题; 2. 构建 Data + AI 飞轮: 研发高性能的数据清洗与向量化流水线,从数据中实时化萃取高质量数据,构建AI存储和检索系统,通过构建数据反馈回路,使模型和Agent持续进化; 3. 超大规模系统攻坚: 维护并演进日处理百 PB 级数据的实时平台,在极致的成本与性能约束下,探索存算分离、混合索引等前沿技术落地。
1应用架构设计与演进:负责大模型应用开发平台(LLM App Platform)的整体架构设计,定义应用层与模型层的交互标准,构建支持Agent、RAG、工作流编排的高扩展性基础框架; 2核心引擎研发:主导核心中间件的研发,包括但不限于:模型网关(Model Gateway)、智能体运行时(Agent Runtime)、上下文状态管理及工具/插件注册中心**,屏蔽底层模型差异,降低业务接入成本; 3高可用与性能优化:解决大模型应用场景下的长链路超时、Token吞吐瓶颈等问题;设计并落地流式传输(Streaming)、语义缓存(Semantic Cache)、熔断降级等机制,保障系统在高并发下的稳定性与低延迟; 4工程化与效能工具:搭建Prompt管理、大模型评估(Eval)框架及调试回放系统,提升算法与业务团队的研发效率与迭代质量; 5稳定性建设:构建全链路可观测体系(Trace/Metric/Log),针对大模型特有的Token消耗、生成质量、耗时分布进行精细化监控与治理; 6技术攻坚与规划:跟踪LangChain、Semantic Kernel等开源社区动态,结合业务需求进行架构选型与预研,推动技术栈的持续升级。