阿里云阿里云智能-可观测算法专家-杭州
任职要求
1. 专业背景:计算机、人工智能、软件工程、模式识别、统计学等相关专业; 2. 算法功底:具备扎实的机器学习/深度学习算法基础,尤其在时序分析、异常检测、因果推断、图算法(GNN)、强化学习等领域有深入研究或实践经验者优先; 3. LLM 技术能力: 熟练掌握 LLM 主流算法原理,在 Fine-tuning、Prompt Engineering、RAG、Agentic 应用开发等一个或多个方向有深入的实践经验。主导过有影响力的大模型相关项目或在顶会/期刊发表过相关论文者优先; 4. 领域…
工作职责
1. 研发可观测核心算子:负责设计与研发面向海量可观测数据的核心算法算子,实现对海量原始数据的高效预处理与特征提取,为上层智能应用提供高质量输入; 2. 参与 AIOps Agent 设计与研发:负责 LLM 驱动的 AIOps Agent 的核心算法研发。通过多 Agent 架构解决复杂场景下的根因定位、影响评估、智能巡检、辅助运维等难题; 3. 构建并应用 AIOps Benchmark 体系:设计和落地具有业界影响力的 AIOps Benchmark 评测体系。通过系统化的故障注入与案例复盘,构建覆盖广泛、高度真实的评测数据集,用于度量和持续优化 AIOps 系统的泛化能力; 4. 探索前沿模型训练与优化技术:运用监督微调(SFT)、强化学习(RLHF)等前沿技术,针对 AIOps 中的关键过程进行模型优化和迭代,持续提升 AIOps 的准确性和性能; 5. 追踪前沿并推动技术落地:持续追踪和研究 LLM、Agent、知识图谱、图神经网络等技术在 AIOps 领域的前沿进展,结合阿里云可观测产品的实际场景,探索和推动前沿技术的应用与落地,构建技术壁垒。
1. 负责LLM在运维领域的应用与落地,包括但不限于LLM/GPT、LangChain、知识图谱、图神经网络、强化学习等技术,探索智能运维与领域模型的结合,实现在业务中的应用落地; 2. 探索LLM技术在智能运维领域中的落地应用,负责算法模型研发,搭建LLM应用的框架,融入统一运维平台,为运维效率提升提供智能服务; 3. 参与领域模型的全流程工作,包括但不限于数据、训练、评测、推理部署,保证数据的高质量和有效性; 4. 探索 Agent 在复杂任务中的应用,实现基于LLM的复杂任务在智能运维领域场景的应用落地; 5. 持续跟进LLM前沿技术、开源方案及其在智能运维领域的应用。
1. Code Agent 强化学习训练体系设计与落地 负责大规模语言模型在后训练阶段(Post-Training)面向 Code Agent 场景的核心算法研发,设计端到端的 RL 训练流程,涵盖代码生成、代码编辑、调试修复、测试驱动开发等多环节 Agent 行为的策略学习,探索在超长代码上下文与多轮工具交互场景下的训练稳定性与样本效率。 2. 代码环境交互与多步决策优化 构建真实且可扩展的代码执行沙箱环境(Sandbox),支持 Agent 与编译器、终端、测试框架、版本控制系统等工具的闭环交互;研究多步代码推理与规划算法(如 Tree-of-Thought、Monte Carlo Tree Search 在代码任务中的适配),提升模型在跨文件编辑、大型仓库级代码理解与修改、复杂 Debug 链路上的决策质量。 3. 代码奖励信号设计与奖励模型构建 设计多层次、细粒度的代码奖励信号体系,融合可执行性验证(编译通过、测试用例通过率)、代码质量评估(可读性、效率、安全性)、需求对齐度等多维度反馈;研究如何利用自动化测试生成、变异测试(Mutation Testing)、静态分析工具等构建可靠的过程奖励模型(Process Reward Model),解决代码场景中奖励稀疏、奖励欺骗(Reward Hacking)以及部分可观测性等核心难题。 4. 泛化性与迁移能力提升 研究如何通过后训练阶段的课程学习(Curriculum Learning)、跨语言/跨领域任务混合训练、元学习(Meta-Learning)等策略,提升 Code Agent 在未见编程语言、未见框架、未见任务类型上的零样本与少样本泛化能力;探索代码推理能力向通用推理(数学、逻辑、科学问题)的正向迁移路径,推动模型整体 AGI 泛化水平。 5. 数据飞轮与自我进化机制 设计 Code Agent 的自我对弈与自我改进闭环:通过 Agent 自主探索生成高质量训练轨迹(Trajectory),结合拒绝采样(Rejection Sampling)、自我验证(Self-Verification)、自我修复(Self-Repair)等机制构建可持续的数据飞轮,实现模型能力的迭代自举(Bootstrapping),减少对人工标注数据的依赖。 6. 大规模分布式训练系统与工程协同 与基础架构团队紧密协作,针对 Code Agent 训练中环境交互延迟高、轨迹长度动态变化、Action Space 复杂等特点,设计并优化异步/同步混合的大规模分布式 RL 训练架构;解决长序列代码上下文下的显存瓶颈与吞吐效率问题,实现算法创新与系统性能的高效协同。
1. 为部门训练的资源管理负责,包括但不限于保障算法训练效率和资源利用率下的算力、存储、网络等的组合弹性交付、跨团队协同沟通等。 2. 为部门使用的云产品制定通用/专项优化方案,并推动部门协作,持续跟踪和落地优化目标。 3. 为部门推理成本的优化负责,包括但不限于梳理供需各环节使用情况和效率确保可观测可追溯、跨团队协同制定优化优先级和方案、推动对应角色执行以落地对应的优化目标等。
负责阿里集团、阿里云战略级产品SLS研发,在日增数百PB级的超大规模实时数据之上,挑战从“经典可观测性”向“AI Native 基建”的跨越。通过实时采集、索引、存储、语义检索和分析等技术,实时处理每日数百PB海量数据,并针对AI应用场景进行特定优化,提供智能、自动化数据检索和分析服务。加入该岗位,您将有机会在国内超大规模的实时日志平台上,打造新一代的AI基础设施。 1.定义下一代 AI 数据基座: 基于现有海量日志平台,重构面向 Agent Runtime 的数据基础设施,解决高吞吐写入与低延迟语义检索共存的工程难题; 2.构建 Data + AI 飞轮: 研发高性能的数据清洗与向量化流水线,从数据中实时化萃取高质量数据,构建AI存储和检索系统,通过构建数据反馈回路,使模型和Agent持续进化; 3.超大规模系统攻坚: 维护并演进日处理百 PB 级数据的实时平台,在极致的成本与性能约束下,探索存算分离、混合索引等前沿技术落地。