logo of kuaishou

快手大模型网络研发工程师

社招全职D13917地点:北京状态:招聘

任职要求


1、精通计算机网络和网络编程;
2、精通至少一门主流编程语言,比如C/C++, Python, Go等;
3、熟悉当前高性能网络和系统领域的最新进展,包括RDMA,拥塞控制,…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责高性能AI通信框架,网络协议栈以及端网应用协同优化等核心技术的研发,满足训练高吞吐以及推理低延迟的要求;
2、支持大规模AI场景的高速网络平台系统研发,包括故障定位和性能分析等。
包括英文材料
网络编程+
C+
还有更多 •••
相关职位

logo of bytedance
社招A163886

1、高速网络技术的设计和研发,满足AI/大模型业务在训练、推理、存储等多个场景对网络的需求; 2、支持大规模AI场景的高速网络平台系统研发,包括故障定位和性能分析等; 3、高性能AI通信框架,网络协议栈以及端网应用协同优化等核心技术的研发,在支持业务规模化扩展的同时,保证网络的高可靠性和高性能; 4、通过技术创新推动AI网络技术的持续演进,打造适合大规模AI场景的超低时延高速互联技术。

更新于 2024-05-13杭州
logo of mihoyo
社招3年以上程序&技术类

1. 负责大模型推理平台(含多模态)与传统网关场景的统一流量接入与调度体系建设:入口网关到推理后端的路由、转发、灰度、熔断、降级与回滚策略落地。 2. 设计与实现面向推理业务的流量调度算法:按模型/租户/优先级/成本/延迟目标进行动态路由与容量分配,持续优化 TTFT / TPOT / P99 等指标。 3. 建设流量治理能力:限流(全局/分层/配额)、并发控制、排队与背压、超时与重试、连接管理、长连接与流式请求治理、突发保护与弹性策略。 4. 完善可观测性与问题定位:全链路 tracing、结构化日志、指标与告警体系;建设压测/回放/故障演练能力,提升定位与恢复效率。 5. 推进平台化与工程化:沉淀配置/策略编排/发布体系,保障多集群、多环境的一致性、稳定性与安全合规。 6. 持续跟进业界先进网关与推理流量技术/算法,推动在生产环境落地与迭代。

北京
logo of mihoyo
社招3年以上程序&技术类

1. 负责大模型推理平台(含多模态)与传统网关场景的统一流量接入与调度体系建设:入口网关到推理后端的路由、转发、灰度、熔断、降级与回滚策略落地。 2. 设计与实现面向推理业务的流量调度算法:按模型/租户/优先级/成本/延迟目标进行动态路由与容量分配,持续优化 TTFT / TPOT / P99 等指标。 3. 建设流量治理能力:限流(全局/分层/配额)、并发控制、排队与背压、超时与重试、连接管理、长连接与流式请求治理、突发保护与弹性策略。 4. 完善可观测性与问题定位:全链路 tracing、结构化日志、指标与告警体系;建设压测/回放/故障演练能力,提升定位与恢复效率。 5. 推进平台化与工程化:沉淀配置/策略编排/发布体系,保障多集群、多环境的一致性、稳定性与安全合规。 6. 持续跟进业界先进网关与推理流量技术/算法,推动在生产环境落地与迭代。

上海
logo of tencent
社招5年以上腾讯云-网络技术

1.负责计算集群的高性能RDMA网络系统软件开发和建设工作,构建业界领先的集群高性能RDMA网络性能和稳定性; 2.负责业界大模型训练的主流加速框架(如DeepSpeed、Megatron-LM)与云平台底层技术特点和优势结合,通过自研高性能RDMA网络技术进行持续优化; 3.跟踪业界最新AI基础设施和互联网络通信技术建设情况,包括scale up&out网络,持续打造自研产品竞争力。

更新于 2026-01-19上海|深圳