顺丰运维开发工程师(顺丰科技)
任职要求
1、2026届本科及以上学历毕业生; 2、计算机相关专业; 3、扎实的计算机相关专业学识基础;熟悉网络、Oracle/Mysql数据库、存储、Web中间件、Linux系统等1-2项; 4、掌握至少一种编程语言…
工作职责
1、负责顺丰科技运维平台设计,在网络、数据库、中间件、机房的规划、应用运维等不同专业组,保证各个系统的正常运转; 2、服务器的交付、日常监控以性能调优; 3、解决各类疑难技术问题、故障处理; 4、系统的效率优化、维护; 5、协助制订IT运维管理制度及流程。
团队介绍:字节跳动豆包大模型团队(Seed)成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 豆包大模型团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统存储相关组件的设计和开发,服务于大模型推理的各业务场景(LLM/S2S/VLM/多模态等),包括模型分发加载、KV Cache存储和优化,数据IO性能优化,提高推理TTFT、TBT等核心性能指标; 2、负责设计和实现面向大模型推理的多层级存储系统,综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统(HDFS/对象存储)等多种介质进行数据的存储和迁移管理,实现「近计算缓存+远端大容量存储」的一体化分级系统; 3、负责优化大模型KV Cache命中率,从推理框架,流量调度,多级缓存等多个系统纬度入手定制化优化策略;优化数据的读取性能,充分利用近计算侧的NVLink、RDMA高速网络、GPU Direct技术实现数据的高效传输;优化数据副本的存放策略,实现负载流量和存储数据的合理化分布; 4、负责设计和实现高效、易用的数据访问接口,实现和推理框架、引擎的无缝对接,管理KV Cache的生命周期; 5、负责Kubernetes场景下多级存储系统的接入、管理、运维、监控,确保稳定性; 6、负责多机房、多地域、多云场景的系统搭建和容灾,优化跨集群的数据摆放。
1、稳定性保障与体系建设:负责大模型相关核心业务系统的稳定性建设工作,提升业务可用性与可靠性。 2、高并发流量治理:高并发场景下的流量治理方案设计与实施,包括熔断、限流、降级等容灾策略,确保业务弹性与鲁棒性。 3、运维流程优化和自动化:推动运维自动化与平台化建设,提升研发效率。 4、架构高可用建设:业务系统稳定性架构方案的设计与实施,推动高可用架构落地,规避系统性风险。 5、应急响应:负责快速定位并解决生产环境故障,建立故障快速恢复机制,推动长效改进措施落地。
1、业务流程理解和模块设计开发:负责理解和识别关键业务流程,能够独立完成模块的设计和开发;承接业务需求,负责项目设计和开发,以及日常迭代开发; 2、技术框架和开发规范:掌握和复用团队内部技术框架,提升研发效率和质量;参与框架优化、研发规范制定,以及稳定性工作; 3、系统维护和改进:对现有系统进行持续维护和改进;遵守规范标准,根据CodeReview和阶段性讨论优化系统实现; 4、系统监控和稳定性保障:实施系统监控,保障系统稳定性,包括性能优化和问题排查;处理线上服务监控告警及问题排查; 5、线上系统运维和应急处理:负责线上系统运维,包括日常维护、问题排查、系统升级等;应急跟进和处理用户工单;