飞猪旅行飞猪-Agent Infra软件工程师-杭州
任职要求
1、拥有大规模机器学习基础设施的工作经验,在推理大规模训练中能识别瓶颈,并设计解决方案以优化训练环境中的系统性能。
2、擅长性能和优化,能解决基础设施可扩展性、虚拟化效率和其它复杂、模…工作职责
1、搭建和扩展系统以训练智能体模型,并维护智能体运行的生产平台。 2、主要负责维护和开发训练框架,开发和维护API作为智能体基础设施在训练和生产中的接口。 3、与研究团队合作,负责建立和优化大规模的高性能系统以推进 AI 训练和实验应用程序的落地,与训练推理方向团队合作,探索算法、框架、硬件的协同设计,提升大规模强化学习训练的稳定性和效率。
1、Kubernetes架构设计与开发: 深入理解Kubernetes原生架构的设计理念,参与并主导Kubernetes核心组件的开发和实现。 2、性能调优与优化: 通过监控工具(如Prometheus、Grafana)对Kubernetes集群进行全面性能分析,并优化关键节点、组件和流程,以提升整体系统的稳定性和响应速度。 3、集群部署与运维: 独立负责Kubernetes集群的稳定部署、监控与维护工作,确保集群在高负载环境下的可靠运行。 4、平台化能力建设: 研究并实施Kubernetes平台化的能力建设,提升平台的扩展性、可用性和可管理性。 5、跟踪云原生生态的最新发展趋势,研究并应用新技术以提升底座的稳定性、可扩展性、可维护性。 6、Agent Sandbox 平台设计与开发:基于云原生底座,设计并实现 Agent/Sandbox 全生命周期管理平台,支撑沙箱的规模化运行。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责超大规模机器学习系统架构的设计开发,解决系统高并发、高可靠性、高可扩展性等技术难关; 2、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、分布式模型训练、数据管理、高性能计算等; 3、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、编译优化技术、强化学习RL/Agent环境交互技术等的引入落地; 4、与算法部门深度合作,进行算法与系统的联合优化。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责超大规模机器学习系统架构的设计开发,解决系统高并发、高可靠性、高可扩展性等技术难关; 2、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、分布式模型训练、数据管理、高性能计算等; 3、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、编译优化技术、强化学习RL/Agent环境交互技术等的引入落地; 4、与算法部门深度合作,进行算法与系统的联合优化。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责超大规模机器学习系统架构的设计开发,解决系统高并发、高可靠性、高可扩展性等技术难关; 2、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、模型训练、模型推理、数据管理、工作流编排等; 3、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、编译优化、强化学习RL/Agent环境交互技术等的引入落地; 4、与算法部门深度合作,进行算法与系统的联合优化。