logo of thead

平头哥平头哥-AI Infra 工程师-上海

社招全职5年以上技术-芯片地点:上海状态:招聘

任职要求


1. 硕士及以上学历,计算机科学、人工智能等相关专业,具备3年以上AI基础设施或大规模分布式系统研发经验
2. 精通Python/C++/Go等至少一种编程语言,具备扎实的分布式系统设计能力
3. 深入掌握Kubernetes集群的高可用架构设计与大规模运维,熟悉容器编排…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 主导高扩展性、高吞吐量AI基础设施平台的设计与构建,基于VLLM、SGLang等前沿推理框架,搭建支持多模态大模型的分布式推理系统,实现动态资源调度与低延迟响应
2. 构建智能化资源调度策略与弹性扩缩容机制,保障高并发场景下推理服务的稳定性与资源利用率最大化
3. 解决大规模分布式场景下的性能瓶颈,优化GPU集群资源利用率及端到端推理吞吐量,降低推理成本并提升TTFT、TPOT等指标
4. 跟踪AI基础设施领域(AI Infra)技术趋势,包括但不限于分布式推理优化、模型即服务(MaaS)、自动化模型部署(AutoML)等,结合业务场景进行技术选型与创新性实践
5. 设计并实现AI推理服务效能监控看板与端到端可观测性(Observability)系统,通过实时指标分析(如token消耗、GPU利用率、延迟分布)驱动业务侧资源优化。
6. 构建数据驱动的A/B测试与成本分析模型,为业务决策提供量化依据,助力模型服务化全生命周期管理。
包括英文材料
学历+
分布式系统+
Python+
C+++
Go+
Kubernetes+
高可用+
还有更多 •••
相关职位

logo of xiaohongshu
社招5-10年引擎

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。

更新于 2026-03-28上海|北京
logo of xiaohongshu
社招5-10年引擎

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 工作职责: 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设; 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 4、参与/负责构建推理框架的系统容错能力,包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设; 5、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 6、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。

更新于 2026-03-28北京|上海
logo of bytedance
社招A121315

团队介绍:字节跳动豆包大模型团队(Seed)成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 豆包大模型团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统存储相关组件的设计和开发,服务于大模型推理的各业务场景(LLM/S2S/VLM/多模态等),包括模型分发加载、KV Cache存储和优化,数据IO性能优化,提高推理TTFT、TBT等核心性能指标; 2、负责设计和实现面向大模型推理的多层级存储系统,综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统(HDFS/对象存储)等多种介质进行数据的存储和迁移管理,实现「近计算缓存+远端大容量存储」的一体化分级系统; 3、负责优化大模型KV Cache命中率,从推理框架,流量调度,多级缓存等多个系统纬度入手定制化优化策略;优化数据的读取性能,充分利用近计算侧的NVLink、RDMA高速网络、GPU Direct技术实现数据的高效传输;优化数据副本的存放策略,实现负载流量和存储数据的合理化分布; 4、负责设计和实现高效、易用的数据访问接口,实现和推理框架、引擎的无缝对接,管理KV Cache的生命周期; 5、负责Kubernetes场景下多级存储系统的接入、管理、运维、监控,确保稳定性; 6、负责多机房、多地域、多云场景的系统搭建和容灾,优化跨集群的数据摆放。

更新于 2024-12-20上海
logo of pinduoduo
社招技术类

1、构建适合电商领域的大模型,提供高性能低成本的在离线解决方案,与算法工程师密切合作,持续提升大模型的能力 2、设计开发大模型训练系统,优化实现多种并行策略、算子优化、ZeRO技术、FlashAttention、量化技术、高性能Reduce通信库等,极致优化训练性能 3、设计开发大模型推理系统,应用PagedAttention、Batching优化、GPU算子优化、量化与压缩等技术,构建高吞吐、低延迟、支持数万QPS的在线服务 4、跟进最新的AI算法和infra的进展,并高效地将新技术落地应用到PDD电商的实际业务中,为消费者创造价值

更新于 2026-05-12上海