字节跳动AIOps应用算法工程师-APM
任职要求
1、本科及以上学历,计算机、统计学等相关专业毕业; 2、扎实的统计分析、机器学习等领域经验,熟悉AIOps核心技术; 3、优秀的编程思维,精通Python/Golang等至少一门编程语…
工作职责
团队介绍:字节跳动APM(Application Performance Management)团队负责全栈产品(服务端、移动端、前端、跨端)的稳定性与性能质量监控,构建业界领先的可观测性基础设施。团队提供一站式观测平台,满足公司各业务线故障排查、监控及各类稳定性需求。 1、AIOps技术深化:AIOps智能运维方向通过融合统计、机器学习和LLM各类算法,实现智能报警、根因定位等;负责主导时序分析、故障诊断、根因关联推断及日志聚类等算法设计; 2、前沿技术创新应用:负责探索LLM Agent在可观测性、自动化运维中落地应用; 3、算法平台与解决方案落地:负责算法解决方案及平台全流程设计,支持算法应用。
1. 负责阿里云全球IDC机房基础设施运维技术管理,制定并持续优化IDC基础设施运维标准、流程、质量分析模型,提升运维专业化水平,实现对IDC稳定性管理的技术、管理覆盖。 2. 负责阿里云全球IDC运维电气专业线能力建立,协助一线运维团队建立电气专业梯队。 3. 阿里云全球IDC稳定性事件应急响应,支撑一线运维进行电气系统应急故障处理。 4. 主导阿里云全球IDC运维稳定性飞检,识别电气系统架构风险,协助一线运维团队推动风险闭环。 5. 进行IDC电气技术探索,建立电气专业运维的数字化、自动化、AIOps能力。 6. 整合运维技术优化需求,对接研发、设计等团队完成需求落地;参与IDC电气新技术、新架构升级的评估,输出运维视角的评估建议;参与安全合规。
1. 负责阿里云全球IDC机房基础设施运维技术管理,制定并持续优化IDC基础设施运维标准、流程、质量分析模型,提升运维专业化水平,实现对IDC稳定性管理的技术、管理覆盖。 2. 负责阿里云全球IDC运维暖通专业线能力建立,协助一线运维团队建立暖通专业梯队。 3. 阿里云全球IDC稳定性事件应急响应,支撑一线运维进行暖通系统应急故障处理。 4. 主导阿里云全球IDC运维稳定性飞检,识别暖通系统架构风险,协助一线运维团队推动风险闭环。 5. 进行IDC暖通技术探索,建立暖通专业运维的数字化、自动化、AIOps能力,并持续进行机房能源综合运营优化,构建高效数据中心。 6. 整合运维技术优化需求,对接研发、设计等团队完成需求落地;参与IDC暖通新技术、新架构升级的评估,输出运维视角的评估建议。
1. 负责阿里云全球IDC机房基础设施运维技术管理,制定并持续优化IDC基础设施运维标准、流程、质量分析模型,提升运维专业化水平,实现对IDC稳定性管理的技术、管理覆盖。 2. 负责阿里云全球IDC运维自控专业线能力建立,协助一线运维团队建立自控专业梯队。 3. 阿里云全球IDC稳定性事件应急响应,支撑一线运维进行自控系统应急故障处理。 4. 主导阿里云全球IDC运维稳定性飞检,识别自控系统架构风险,协助一线运维团队推动风险闭环。 5. 进行IDC自控及数字化技术探索,建立自控专业运维的数字化、自动化、AIOps能力。 6. 整合运维技术优化需求,对接研发、设计等团队完成需求落地;参与IDC自控新技术、新架构升级的评估,输出运维视角的评估建议。
1. 负责LLM在运维领域的应用与落地,包括但不限于LLM/GPT、LangChain、知识图谱、图神经网络、强化学习等技术,探索智能运维与领域模型的结合,实现在业务中的应用落地; 2. 探索LLM技术在智能运维领域中的落地应用,负责算法模型研发,搭建LLM应用的框架,融入统一运维平台,为运维效率提升提供智能服务; 3. 参与领域模型的全流程工作,包括但不限于数据、训练、评测、推理部署,保证数据的高质量和有效性; 4. 探索 Agent 在复杂任务中的应用,实现基于LLM的复杂任务在智能运维领域场景的应用落地; 5. 持续跟进LLM前沿技术、开源方案及其在智能运维领域的应用。