阿里云阿里云智能-可观测算法专家-杭州
任职要求
1. 专业背景:计算机、人工智能、软件工程、模式识别、统计学等相关专业; 2. 算法功底:具备扎实的机器学习/深度学习算法基础,尤其在时序分析、异常检测、因果推断、图算法(GNN)、强化学习等领域有深入研究或实践经验者优先; 3. LLM 技术能力: 熟练掌握 LLM 主流算法原理,在 Fine-tuning、Prompt Engineering、RAG、Agentic 应用开发等一个或多个方向有深入的实践经验。主导过有影响力的大模型相关项目或在顶会/期刊发表过相关论文者优先; 4. 领域…
工作职责
1. 研发可观测核心算子:负责设计与研发面向海量可观测数据的核心算法算子,实现对海量原始数据的高效预处理与特征提取,为上层智能应用提供高质量输入; 2. 参与 AIOps Agent 设计与研发:负责 LLM 驱动的 AIOps Agent 的核心算法研发。通过多 Agent 架构解决复杂场景下的根因定位、影响评估、智能巡检、辅助运维等难题; 3. 构建并应用 AIOps Benchmark 体系:设计和落地具有业界影响力的 AIOps Benchmark 评测体系。通过系统化的故障注入与案例复盘,构建覆盖广泛、高度真实的评测数据集,用于度量和持续优化 AIOps 系统的泛化能力; 4. 探索前沿模型训练与优化技术:运用监督微调(SFT)、强化学习(RLHF)等前沿技术,针对 AIOps 中的关键过程进行模型优化和迭代,持续提升 AIOps 的准确性和性能; 5. 追踪前沿并推动技术落地:持续追踪和研究 LLM、Agent、知识图谱、图神经网络等技术在 AIOps 领域的前沿进展,结合阿里云可观测产品的实际场景,探索和推动前沿技术的应用与落地,构建技术壁垒。
1. 负责LLM在运维领域的应用与落地,包括但不限于LLM/GPT、LangChain、知识图谱、图神经网络、强化学习等技术,探索智能运维与领域模型的结合,实现在业务中的应用落地; 2. 探索LLM技术在智能运维领域中的落地应用,负责算法模型研发,搭建LLM应用的框架,融入统一运维平台,为运维效率提升提供智能服务; 3. 参与领域模型的全流程工作,包括但不限于数据、训练、评测、推理部署,保证数据的高质量和有效性; 4. 探索 Agent 在复杂任务中的应用,实现基于LLM的复杂任务在智能运维领域场景的应用落地; 5. 持续跟进LLM前沿技术、开源方案及其在智能运维领域的应用。
1、负责块存储运维支撑系统的的设计、开发工作,制定技术演进路线并保持技术持续迭代升级,进而保障超大规模分布式块存储系统的生产稳定性。 2、负责块存储生产运维规则基线的定义和开发,通过交付部署管控、发布变更管控以及智能检测熔断能力,提供稳定安全可靠的基础环境。 3、针对大规模分布式块存储系统,负责构建安全合规的可观测系统,包括机器、网络、用户、业务指标等各类监控,提供秒级的监控报警,并进行智能分析及根因定位。 4、负责运维能力的下沉,保障块存储运维支撑系统在线上线下能力的一致性。
团队负责数百万节点的云原生基础设施,支撑公司的所有产品线。目前在 kubernetes 集群管控技术,运行时资源优化,多云多集群,云原生基础设施稳定性保障方面都会比较深入的技术积累,并且开源有 kubebrain, katalyst 等云原生基础技术相关项目,团队持续围绕以资源并池,资源弹性为中心的基础技术研发和突破。 1、构建超大规模的 kubernetes 集群,推进系统架构演化和设计,持续优化管控系统在大数据/ML等场景下的性能和稳定性; 2、定义 kubernetes 集群的 SLO,持续优化端到端的延迟,分析性能瓶颈,输出解决方案,并推动上线和落地; 3、持续构建和完善 kubernetes 集群的可观测性,提升问题定位效率,并且建立可观测性数据仓库,通过数据驱动的方式优化集群性能。
团队介绍:IaaS字节跳动基础架构IaaS团队致力于不断创新,推动云计算产业发展和IaaS架构演进。作为云计算基座我们服务了字节跳动旗下包括抖音、今日头条、西瓜视频、飞书等明星产品, 并通过火山引擎云基础产品服务外部客户:包括金融、汽车、游戏、电商、社交媒体、高端制造、科研院所等各行各业的丰富场景, 为亿级用户量的APP和ToB业务提供安全、稳定、高性价比的算力。 我们坚持全栈自研,软硬一体,全面拥抱云原生, 在技术上追求极致: -基于智能库存调度、精细化监控以及自动化运维能力, 来管理遍布全球超百万台规模的服务器集群; -自研高吞吐、低延迟、高弹性的网关网元以及高弹性高并发的计算存储服务来应对抖音春晚、双十一等各种流量洪峰; -打造万卡超大规模的GPU集群, 与机器学习平台、火山方舟一起构建了从基础设施到模型生态的完整解决方案; -此外,还提供和火山引擎公有云同源架构的veStack混合云平台,支撑客户的本地化部署和跨云资源的弹性伸缩等。 1、负责大模型训练和推理所需的IaaS基础设施的规划、建设与维护; 2、与业务团队密切合作,支持业务新算法和模型的集成,并优化其在IaaS基础设施上的性能; 3、开发和维护自动化工具,提高大规模模型基础设施的可观测性、可扩展性和可管理性; 4、跟踪业界AI新兴技术和行业趋势,参与新技术的研究与应用,推动基础设施的持续升级。