logo of bytedance

字节跳动云网络AI Infra研发专家/架构师

社招全职5年以上A141338地点:上海状态:招聘

任职要求


1、计算机相关专业,本科以上学历,5年以上研发/架构经验;
2、熟悉主要云厂商的AI Infra解决方案,有分布式计算和网络项目经验;
3、熟悉主流AIGC算法模型原理,熟悉LLM/CV/NLP/推荐系统等业务场景的系统和原理;
4、有高性能网络(如RDMA、NCCL、MPI等)开发经验者优先。

工作职责


1、负责云网络AI Infra业务研发,探索推理框架与云网络系统的深度集成,优化大模型推理性能;
2、推动云网络与大模型加速相关生态建设,设计和实施AI Infra中云网络的软硬结合解决方案;
3、持续跟进LLM前沿技术和开源方案,完成业务场景化分析,并落地云网络产品,提升产品竞争力。
包括英文材料
学历+
算法+
大模型+
NLP+
推荐系统+
相关职位

logo of futu
社招技术类

底层推理基础设施建设:负责 GPU / TPU 集群管理、异构资源调度与高性能网络优化 实现弹性伸缩、自动修复与多机多卡高效并行。推理引擎深度优化:基于 vLLM、TensorRT-LLM、DeepSpeed-Inference、Pagoda 等框架进行分片并行、张量并行、量化(FP8 / INT4)与编译优化。算法 × 工程协同:与算法工程师联合设计离线训练、在线推理的完整链路,推进模型版本管理、灰度发布、回滚与 A/B 测试,确保模型效果与系统稳定性的双重 SLA。高性能存储与缓存:架设高速并行文件系统或 KV-Store,优化 KV-Cache 热点、RDMA / RoCE 网络,降低 I/O 与通信开销。Observability & SRE:构建完整的 Metrics / Tracing / Logging 体系(Prometheus、Grafana、Jaeger、Loki),定义 SLO / SLI 并实施容量规划。技术前瞻与研究:持续跟踪新硬件(H100, MI300, Grace Hopper)、编译器(TVM, XLA, One-Inference)与调度算法,推动架构演进。

更新于 2025-08-27
logo of aliyun
社招5年以上产品类-平台型

1. 负责百炼专属版大模型AI Infra产品定义、设计及商业化落地; 2. 制定产品策略以及商业策略,以业务成功为导向,协同研发工程师,售前架构师, 产品运营等多角色共同努力达成业务目标; 3. 深刻理解客户业务和场景需求,追踪行业发展趋势及技术发展动态,规划产品演进路径及迭代,保持具有持续产品力竞争优势; 4. 追踪标杆客户,确保技术可行性,以及对产品演进的持续反馈,沉淀最佳实践,标杆项目案例; 5. 收集客户需求,结合技术理解和研判,推动产品功能升级迭代,提升产品市场竞争力和市场占有率。

更新于 2025-06-27
logo of aliyun
社招3-5年云智能集团

弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。

更新于 2025-07-15
logo of aliyun
社招5年以上云智能集团

1. 存储和 AI infra 研发,开发和调优高性能通信框架,包括多线程任务调度、零拷贝内存管理、多协议自适应 RPC 等,聚焦云存储(EBS/OSS/DFS/CPFS)与 AI 智算场景的网络基础设施,主导下一代高效稳定的存储网络技术体系构建。 2. 主导 RDMA 技术栈的深度优化,探索 DPU/CIPU 异构计算架构下的软硬协同设计方案,研究Falcon/UET 等新型网络协议的适用场景,推动协议层与存储/计算框架的深度集成。 3. 开发基于 BF3 的智算网络加速方案,实现高带宽低延迟大规模 AI 数据流处理。 4. 参与建设网络框架监控、智能运维体系,在保障网络高性能的同时,兼顾可控、可靠、可视化。

更新于 2025-07-31