logo of bytedance

字节跳动AI/大模型网络研发工程师

社招全职A163886地点:杭州状态:招聘

任职要求


1、精通计算机网络和网络编程;
2、精通至少一门主流编程语言,比如C/C++, Python, Go等;
3、熟悉当前高性能网络和系统领域的最新进展,包括RDMA,拥塞控制,AI网络优化等技术;
4、对AI网络故障定位和性能优化有经验者优先;
5、有高性能通信框架(如NCCL,MPI,各种RPC库等)开发经验者优先。

工作职责


1、高速网络技术的设计和研发,满足AI/大模型业务在训练、推理、存储等多个场景对网络的需求;
2、支持大规模AI场景的高速网络平台系统研发,包括故障定位和性能分析等;
3、高性能AI通信框架,网络协议栈以及端网应用协同优化等核心技术的研发,在支持业务规模化扩展的同时,保证网络的高可靠性和高性能;
4、通过技术创新推动AI网络技术的持续演进,打造适合大规模AI场景的超低时延高速互联技术。
包括英文材料
网络编程+
C+
C+++
Python+
Go+
RPC+
相关职位

logo of kuaishou
社招D13917

1、负责高性能AI通信框架,网络协议栈以及端网应用协同优化等核心技术的研发,满足训练高吞吐以及推理低延迟的要求; 2、支持大规模AI场景的高速网络平台系统研发,包括故障定位和性能分析等。

更新于 2025-07-04
logo of xiaohongshu
社招3-5年大模型

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。

更新于 2025-10-18
logo of antgroup
社招3年以上技术类-安全

1.负责蚂蚁集团的网络安全、数据安全、数据治理与发展相关的核心产品研发,打造支撑百万级安全切面,万亿级流量,覆盖安全感知、防护、检测、响应、治理等全方位的安全平台,以及面向业务发展的高效数据互联互通相关平台,并赋能支撑蚂蚁集团旗下各部门安全能力升级。 2.参与系统的中长期规划、升级优化、技术难题攻关,需要综合考虑产品易用性&体验,系统的性能、可靠性、可扩展性、安全性等方面,确保系统能够满足未来的业务需求和用户规模。 3.独立承接项目,负责业务需求分析、系统核心方案设计和代码编写。

更新于 2025-10-09
logo of tongyi
校招通义2026届秋

通义团队聚焦AIGC、大模型基础研究和行业应用探索,领域覆盖视觉、语音、自然语言处理、机器学习等多个领域。在这里你可以接触业界领先的AI产品和技术,深度参与Modelscope开源生态平台、DashScop灵积模型服务平台、通义AI产品的建设,探索AI+不同场景的全新交互形式,打造具有科技感、全新生产力的科技型产品。 期待您的加入,AI浪头一起弄潮,感受不一样的未来! 1. 负责AI大模型相关系统设计、开发和上线等整个项目周期内的工作。 2. 负责系统技术规划和技术前瞻布局,解决系统疑难问题。 3. 构建高可靠性、高可用性、高可扩展性的体系结构,满足日趋复杂的业务需求。

更新于 2025-08-08