logo of youku

优酷优酷-AI-Infra工程师-北京

社招全职4年以上地点:北京状态:招聘

任职要求


1、擅长C++/Python/Golang,熟悉Linux环境开发,具备扎实的数据结构算法基础
2、深入理解分布式系统原理,熟悉NCCL、MPI、RDMA等通信库或协议
3、熟悉PyTorch/DeepSpeed/Megatron/vLLM等框架源码,了解自动微分、计算图优化等底层机制
4、有GPU/CUDA编程经验,掌握显存管理、Kernel优化等关键技能
5、熟悉Kubernetes/Docker等容器化技术,有云原生AI平台开发经验者优先
6、3年以上AI系统或高性能计算开发经验,主导过大规模训练任务(千卡以上集群)
7、计算机科学、电子工程等相关专业,硕士及以上学历优先;在顶会发表论文,或有知名开源项目贡献者优先

工作职责


1、参与AI训练与推理系统的定制和优化,基于计算-存储-通信协同设计,为算法和模型迭代提供优秀的分布式训练和推理解决方案
2、构建高性能计算集群,提供跨地域异构算力的管理,解决通信、存储、调度等系统级瓶颈
3、深入AI框架底层(如PyTorch、Megatron、vLLM等),改进分布式计算、自动并行、显存优化等核心模块
4、支持AI服务的规模化部署,参与加速优化,算力调度优化和稳定性保障工作,提供通用的模型加速,问题诊断,可观测性等解决方案
5、探索前沿技术方向,如编译优化、post-train训练、agent基础框架等,参与算法模型和工程技术的联合创新实践,解决AI落地业务应用过程中,新出现的效率、规模问题
包括英文材料
C+++
Python+
Go+
Linux+
数据结构+
算法+
分布式系统+
PyTorch+
DeepSpeed+
Megatron+
vLLM+
CUDA+
Kubernetes+
Docker+
学历+
内核+
相关职位

logo of alibaba
社招1年以上

服务淘天电商核心营销业务,针对AI在搜索/推荐/广告、创意、风控等场景的应用开展: 1. AI推理和服务框架的研发与优化,解决实际的业务问题; 2. 算法-软件-硬件协同优化(异构并行计算、AI编译、稀疏量化、混部与弹性等),发挥数十万CPU核和数千加速卡的计算潜力; 3. 研究业界前沿的AI算法、系统和硬件,探索面向推荐系统或大模型AI在线服务的理想软件和硬件系统。

更新于 2025-08-18
logo of aliyun
社招3-5年云智能集团

弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。

更新于 2025-07-15
logo of tencent
社招5年以上CSIG技术

1.负责 deepseek 等AI大模型在 K8s 上的推理部署方案研发,深度对接客户场景; 2.负责AI Infra相关能力在TKE的落地,如AI 相关工作负载的设计与研发,降低用户使用成本; 3.通过优化 AI 部署的计算、网络、存储相关资源,提升训练及推理效率; 4.负责推理稳定性、亲和性调度、推理框架优化、GPU池化等相关工作,降低推理成本,提升推理效率。

更新于 2025-06-05
logo of didi
社招技术

1.参与滴滴内部 post-training 框架研发,聚焦 LLM + RL 方向,设计框架架构与技术路线,提升其扩展性、稳定性与效率。 2.优化框架性能,如训练速度、显存占用等,降低训练成本,为 LLM + RL 训练提供有力技术支撑。 3.协同业务团队,将 LLM 能力在业务场景落地,根据业务需求定制训练方案并评估验证模型。 4.关注行业前沿,引入有价值的技术到公司框架和模型中,探索新算法与方法,推动技术创新。

更新于 2025-06-13