字节跳动LLM算法工程师(AIOps方向)
任职要求
1、计算机、NLP、数学或统计学相关专业硕士研究生及以上学历; 2、具有统计分析、数据挖掘、机器学习和AI等相关领域学习背景或项目经验; 3、具备良好的编程思维,单机/分布式算法解决方案实现能力,精通至少一门主流数据分析和算法实现语言(包括,R,Python,Go,Scala等),能快速对新的方案进行探索和实现; 4、熟练掌握业界主流大语言模型(GPT、ChatGLM、LLaMA等)的算法原理,Fine-tuning策略、Prompt工程、向量数据库和LangChain等应用范式; 5、在相关领域国际顶级会议或期刊发表论文,或参加相关数据挖掘/机器学习领域竞赛获奖者优先; 6、优秀的数据敏感性和业务理解能力,能够从复杂业务数据中发掘有效洞见。
工作职责
1、负责AIOps领域算法和解决方案设计实现,包括时序分析、日志挖掘、故障预测、根因关联推断和智能决策等; 2、探索LLM x AIOps的落地应用,包括但不限于异常检测、根因定位、止损容灾等场景; 3、持续跟进LLM前沿技术、开源方案及其在AIOps领域的应用。
团队介绍:字节跳动APM(Application Performance Management)团队负责全栈产品(服务端、移动端、前端、跨端)的稳定性与性能质量监控,构建业界领先的可观测性基础设施。团队提供一站式观测平台,满足公司各业务线故障排查、监控及各类稳定性需求。 1、AIOps技术深化:AIOps智能运维方向通过融合统计、机器学习和LLM各类算法,实现智能报警、根因定位等;负责主导时序分析、故障诊断、根因关联推断及日志聚类等算法设计; 2、前沿技术创新应用:负责探索LLM Agent在可观测性、自动化运维中落地应用; 3、算法平台与解决方案落地:负责算法解决方案及平台全流程设计,支持算法应用。
1. 与业务/工程/产品团队配合,面向京东零售业务系统和基础设施高可用需求以及海量数据,参与智能运维系统规划和设计; 2. 深入京东零售智能运维具体场景,包括但不限于软件变更、性能容量、监控告警、应急定位、资金核对、客诉舆情、工单处置等场景,面向实际问题,研发机器学习算法,沉淀平台能力; 3. 跟踪和研究前沿智能运维、机器学习、大模型/智能体等技术方向,推动相关领域技术创新,助力京东业务系统高可靠性。
1.Agent核心框架研发: 负责排障AI Agent的核心框架设计与开发,包括任务规划(Planning)、工具调用(Tool-use)、记忆(Memory)等关键模块,持续提升Agent的自主决策与执行能力; 2.Agent效果评测与迭代: 主导设计并落地Agent自动化评测体系,并基于线上失效案例(如规划错误、幻觉)的深入分析,驱动模型、Prompt及工具链的持续优化; 3.大模型后训练与优化: 负责大模型的后训练流程,包括构建高质量SFT数据集、实施Fine-tuning与RLHF/DPO等优化策略,并建立评测-训练-部署的闭环,持续提升模型在排障领域的专业能力。