快手大模型网络研发工程师
任职要求
1、精通计算机网络和网络编程; 2、精通至少一门主流编程语言,比如C/C++, Python, Go等; 3、熟悉当前高性能网络和系统领域的最新进展,包括RDMA,拥塞控制,…
工作职责
1、负责高性能AI通信框架,网络协议栈以及端网应用协同优化等核心技术的研发,满足训练高吞吐以及推理低延迟的要求; 2、支持大规模AI场景的高速网络平台系统研发,包括故障定位和性能分析等。
1、高速网络技术的设计和研发,满足AI/大模型业务在训练、推理、存储等多个场景对网络的需求; 2、支持大规模AI场景的高速网络平台系统研发,包括故障定位和性能分析等; 3、高性能AI通信框架,网络协议栈以及端网应用协同优化等核心技术的研发,在支持业务规模化扩展的同时,保证网络的高可靠性和高性能; 4、通过技术创新推动AI网络技术的持续演进,打造适合大规模AI场景的超低时延高速互联技术。
1. 负责大模型推理平台(含多模态)与传统网关场景的统一流量接入与调度体系建设:入口网关到推理后端的路由、转发、灰度、熔断、降级与回滚策略落地。 2. 设计与实现面向推理业务的流量调度算法:按模型/租户/优先级/成本/延迟目标进行动态路由与容量分配,持续优化 TTFT / TPOT / P99 等指标。 3. 建设流量治理能力:限流(全局/分层/配额)、并发控制、排队与背压、超时与重试、连接管理、长连接与流式请求治理、突发保护与弹性策略。 4. 完善可观测性与问题定位:全链路 tracing、结构化日志、指标与告警体系;建设压测/回放/故障演练能力,提升定位与恢复效率。 5. 推进平台化与工程化:沉淀配置/策略编排/发布体系,保障多集群、多环境的一致性、稳定性与安全合规。 6. 持续跟进业界先进网关与推理流量技术/算法,推动在生产环境落地与迭代。
1. 负责大模型推理平台(含多模态)与传统网关场景的统一流量接入与调度体系建设:入口网关到推理后端的路由、转发、灰度、熔断、降级与回滚策略落地。 2. 设计与实现面向推理业务的流量调度算法:按模型/租户/优先级/成本/延迟目标进行动态路由与容量分配,持续优化 TTFT / TPOT / P99 等指标。 3. 建设流量治理能力:限流(全局/分层/配额)、并发控制、排队与背压、超时与重试、连接管理、长连接与流式请求治理、突发保护与弹性策略。 4. 完善可观测性与问题定位:全链路 tracing、结构化日志、指标与告警体系;建设压测/回放/故障演练能力,提升定位与恢复效率。 5. 推进平台化与工程化:沉淀配置/策略编排/发布体系,保障多集群、多环境的一致性、稳定性与安全合规。 6. 持续跟进业界先进网关与推理流量技术/算法,推动在生产环境落地与迭代。