字节跳动云网络AI Infra研发专家/架构师

社招全职5年以上A1413382024-10-29地点：上海状态：停招

扫码手机上打开

任职要求

1、计算机相关专业，本科以上学历，5年以上研发/架构经验；
2、熟悉主要云厂商的AI Infra解决方案，有分布式计算和网络项目经验；
3、熟悉主流…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责云网络AI Infra业务研发，探索推理框架与云网络系统的深度集成，优化大模型推理性能；
2、推动云网络与大模型加速相关生态建设，设计和实施AI Infra中云网络的软硬结合解决方案；
3、持续跟进LLM前沿技术和开源方案，完成业务场景化分析，并落地云网络产品，提升产品竞争力。

📰 查看页面 ✨AI模拟面试

难度：

包括英文材料

学历+

算法+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-AI基础设施产品专家/高级专家（训推加速平台方向）-北京/杭州

社招5年以上产品类-平台型

1. 负责百炼专属版大模型AI Infra产品定义、设计及商业化落地； 2. 制定产品策略以及商业策略，以业务成功为导向，协同研发工程师，售前架构师，产品运营等多角色共同努力达成业务目标； 3. 深刻理解客户业务和场景需求，追踪行业发展趋势及技术发展动态，规划产品演进路径及迭代，保持具有持续产品力竞争优势； 4. 追踪标杆客户，确保技术可行性，以及对产品演进的持续反馈，沉淀最佳实践，标杆项目案例； 5. 收集客户需求，结合技术理解和研判，推动产品功能升级迭代，提升产品市场竞争力和市场占有率。

更新于 2025-06-27北京|杭州

阿里云智能-AI Infra 高级研发工程师-北京/杭州/上海

社招3-5年云智能集团

弹性计算异构AI推理团队，承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域，团队对接业界主要AI用户的业务需求，承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设，构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作，为阿里云的AI用户提供具有竞争力的AI解决方案。

更新于 2025-07-15北京|杭州|上海

AI Infra研发专家

社招技术类

底层推理基础设施建设：负责 GPU / TPU 集群管理、异构资源调度与高性能网络优化实现弹性伸缩、自动修复与多机多卡高效并行。推理引擎深度优化：基于 vLLM、TensorRT-LLM、DeepSpeed-Inference、Pagoda 等框架进行分片并行、张量并行、量化（FP8 / INT4）与编译优化。算法 × 工程协同：与算法工程师联合设计离线训练、在线推理的完整链路，推进模型版本管理、灰度发布、回滚与 A/B 测试，确保模型效果与系统稳定性的双重 SLA。高性能存储与缓存：架设高速并行文件系统或 KV-Store，优化 KV-Cache 热点、RDMA / RoCE 网络，降低 I/O 与通信开销。Observability & SRE：构建完整的 Metrics / Tracing / Logging 体系（Prometheus、Grafana、Jaeger、Loki），定义 SLO / SLI 并实施容量规划。技术前瞻与研究：持续跟踪新硬件（H100, MI300, Grace Hopper）、编译器（TVM, XLA, One-Inference）与调度算法，推动架构演进。

更新于 2025-08-27深圳

阿里云智能-云网络系统研究工程师（AI方向）-杭州

社招3年以上云智能集团

1. 面向 AI 业务的网络架构设计与演进 ○ 负责支持大规模 AI 训练/推理集群的网络架构规划与方案设计，覆盖 AI access 网络、frontend 网络、AI scale up 网络等关键环节。 ○ 结合业务场景识别网络接入、流量调度、数据分发链路中的性能和可靠性瓶颈，提出系统级优化方案。 2. 高性能多路径传输与 RDMA 方向创新 ○ 深入调研业界前沿应用层多路径传输、RDMA 及相关协议栈优化技术，系统性分析其优缺点与适用场景。 ○ 基于阿里云大规模生产环境，设计并落地面向 AI 流量的多路径传输优化机制，实现端到端的高带宽、低时延和高稳定性。 3. 网络系统研发与产品化落地 ○ 将整体技术方案拆解为可实施的技术点，完成可行性分析、技术规范制定与验收标准设计。 ○ 主导关键模块的架构设计与核心代码开发，构建可快速迭代的原型系统，验证技术路线。 ○ 在验证基础上持续进行性能优化与工程化改造，推动方案产品化落地，并支撑大规模部署和运营。 4. 稳定性与性能优化 ○ 制定并实施面向超大规模集群的稳定性保障策略，从架构设计、协议栈实现、流控/调度策略等多层面建设高可用能力。 ○ 在真实业务环境中开展端到端性能剖析与容量规划，识别热点与瓶颈，落地针对性优化措施，保障高负载下的稳定性能表现。 5. 数智一体的网络分析与智能运维 ○ 利用大数据与大语言模型，设计并研发超大规模网络分析与智能运维系统，提升网络研发、运营、运维、测试效率。 ○ 探索 AI for Network 的创新场景，如异常检测、故障根因定位、智能调度策略优化等。 6. 学术前沿跟踪与技术影响力建设 ○ 持续跟踪计算机网络、AI infra、可编程网络硬件等领域的前沿研究与产业趋势，并评估其在阿里云场景中的落地价值。 ○ 鼓励/支持在 SIGCOMM、NSDI、ATC 等顶会发表论文或输出技术分享，增强团队和个人在业界的技术影响力。

更新于 2025-12-24杭州