logo of kuaishou

快手大模型全栈开发工程师-AI Infra

社招全职5-10年J0012地点:北京 | 上海 | 深圳 | 杭州状态:招聘

任职要求


1、有实际的大模型推理/服务经验,熟悉vLLM, TensorRT-LLM, TGI等至少一种推理框架;
2、有开发或深度使用Kubernetes Operator/CRD 来管理有…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


【关于我们】
我们属于快手AI infra底层中台,致力于让大模型能力稳定、高效、低成本地赋能公司的每一个产品和业务。我们的团队负责从GPU集群管理、模型训练与推理服务,到面向应用开发者的平台工具的全链路AI基础设施。如果你渴望解决AI规模化落地中最具挑战性的工程问题,并希望你的工作能产生巨大的实际影响,那么这里就是你的舞台。

【职位描述】
我们寻找的不仅仅是一个开发者,而是一个能深刻理解AI基础设施在稳定性、性能、成本三大维度上的挑战,并能通过全栈技术手段将其系统化解决的“问题终结者”。你将参与到核心平台的开发中,直面生产环境中高并发、大规模、高可用的工程难题。

1、提升AI Infra的稳定性与可靠性:设计、开发并优化大模型推理服务平台,实现服务的高可用、容灾、自动扩缩容与平滑发布;构建和完善监控与可观测性体系,从硬件、驱动、模型服务到业务API,实现全链路追踪、智能告警与根因分析,将MTTR降至最低;开发自动化运维与自愈工具,处理GPU故障、网络异常、依赖服务中断等复杂场景,保障SLA;
2、极致优化性能与效率:深入优化大模型推理性能,应用动态批处理、持续批处理、PagedAttention、量化、模型编译等前沿技术,显著降低响应延迟、提高吞吐量;开发和维护GPU资源调度与管理系统,提升GPU利用率,减少资源碎片;构建模型生命周期管理工具,实现模型的版本控制、A/B测试、蓝绿部署与流量调度,确保性能与效果的平稳迭代;
3、精细化成本控制与优化:构建资源成本核算与分摊体系,精确追踪每个项目、每个团队、每个模型的GPU/算力消耗;开发智能资源调度策略,利用竞价实例、混合部署、弹性计算等手段,在保证SLA的前提下最大化成本效益;实现自适应推理优化,根据请求特征、业务优先级动态调整计算精度与资源分配,实现“好钢用在刀刃上”;
4、全栈开发,打造一流开发者体验:负责或参与开发面向内部AI应用开发者的Web管理平台与API,提供从模型部署、服务监控到成本分析的一站式自助服务;设计和实现稳定、易用的客户端SDK/API,降低业务方接入和使用大模型能力的门槛。
包括英文材料
大模型+
vLLM+
还有更多 •••
相关职位

logo of jd
社招5年以上测试开发岗

我们是京东云,作为京东集团面向企业、政府等机构的技术服务品牌,是更懂产业的数智化解决方案提供商,致力于为企业、金融机构、政府等各类客户提供以供应链为基础的数智化解决方案。依托公、专、混的全栈式云产品矩阵,我们融合了人工智能、大数据、物联网等前沿科技,在零售、物流、健康、智能城市、金融科技等行业领域为客户提供了丰富的产品与数字化解决方案,帮助客户降低成本、提升效率,是值得信赖的产业数字合作伙伴。 岗位职责: 1. 负责京东云AI基础设施产品的质量保障工作,为上层AI开发提供高性能计算/网络、AI存储、大模型网关、大模型训练/推理、大数据开发等高质量底层技术产品; 2. 深度使用AI技术构建产品质量保障体系,反馈问题,评价版本质量; 3. 参与自动化测试框架及测试pipeline建设,持续提高提测质量和测试效率。

更新于 2026-03-22
logo of dingtalk
社招5年以上技术类-开发

1、团队愿景:在大模型进入深水区的今天,真正拉开差距的,不再只是模型结构,而是数据的质量、成本与评测方法。 我们对标 Scale AI,正在建设主权模型时代的 AI 数据基础设施:以最低的总体成本,持续为模型训练与迭代提供最高质量的数据、数据配方与评测体系。 在这里,你将参与决定用什么样的数据能真正塑造模型能力,把分散、复杂、真实的业务数据,转化为可 规模、可验证、可复用的模型竞争力,参与定义 AI 时代最底层、也最关键的基础设施。 2、 主导多模态模型训练数据的生产项目:作为算法与标注资源的“连接器”,将抽象的模型需求转化为可执行的标注规则和验收标准。管理内外部标注团队(包括外包/众包资源),把控项目进度与成本,确保大规模数据交付的准时率与合格率。 3、流程设计与工程优化:设计 SFT、 RLHF 等数据流转机制,搭建高效的 Workflow。协同多方团队,优化标注效率和质量。 4、负责构建从数据寻源、抓取、到复杂异构数据解析的全流程系统,解决多模态数据的清洗与结构化难题。 5、利用模型生成数据等方式,构建自动化数据扩充流水线,降低对人工标注的依赖,突破数据规模瓶颈。 6、建立数据质量评估体系,系统性分析标注数据的质量分布特征,提升标注效率。

更新于 2026-02-03杭州
logo of amap
社招3年以上技术类-算法

1. 构建后训练专用高性能架构,支持从SFT到RLHF/Agentic RL的全流程调优,为RM模型训练、PPO等复杂算法提供千卡级别的超大规模分布式训练支持,攻克特定阶段的性能瓶颈。 2. 打造极致推理与服务引擎,优化针对RLHF/Agentic RL流程中多个模型的交互式推理链路,通过编译优化、动态批处理、量化等技术,实现高吞吐、低延迟的模型服务,确保用户体验的流畅性。 3. 释放异构硬件最大潜能,深入CPU/GPU/NPU等底层硬件,通过CUDA内核定制、通信库优化(如RDMA)及MLIR/TRITON等编译技术,旨在将硬件性能压榨到极致,以应对高德海量用户与场景的挑战。

更新于 2025-09-23北京
logo of siemens
社招10年以上产品管理

加入西门子智能基础设施集团智能建筑事业部,成为零碳先锋,共创明日世界! 西门子智能基础设施集团 (Siemens Smart Infrastructure, SI) 的业务涵盖能源系统、楼宇和工业,旨在通过集成软硬件、产品、系统和解决方案,改善人们的生活和工作方式,显著提高效率和可持续性。我们致力于打造更低碳、更智能、更灵活的基础设施,在楼宇科技、智慧园区、数据中心等领域,都有我们成功的项目案例。 我们期待应用开发工程师(全栈)人才加入我们,一同推动业务发展。 你将在这些领域发挥影响: • 负责公司工业用 AI 产品的全栈开发,涵盖前端页面设计与实现、后端业务逻辑开发及数据库架构设计,确保产品功能完整且满足工业场景需求。 • 深入理解产品需求(如楼宇设备 AI 监控、能耗智能分析、故障预警等),将需求转化为技术方案,独立完成前端交互逻辑、后端接口及数据库层的设计与编码。 • 前端方面:基于 UI/UX 设计稿开发响应式页面,实现设备状态实时展示、AI 分析结果可视化(图表、数据看板等)、用户操作交互等功能,保障在工业控制终端、PC 端等多设备的兼容性与流畅性。 • 后端方面:设计并开发高效、可靠的 API 接口,处理数据采集、AI 模型调用、业务规则计算等核心逻辑,确保与前端及硬件设备的数据交互稳定。 • 数据库方面:负责数据模型设计、表结构优化、查询性能调优,保障工业场景下海量设备数据(如传感器实时数据、历史运行记录)的存储、检索与安全性。 • 与 AI 算法团队、硬件研发团队、产品经理紧密协作,参与需求评审与技术方案讨论,解决跨团队协作中的技术衔接问题(如 AI 模型输出与业务系统集成、硬件数据协议适配)。 • 负责代码质量管控,编写技术文档(如接口文档、数据库设计文档),参与单元测试与系统测试,排查并修复线上问题,持续优化产品性能与稳定性。 • 跟踪工业软件、前端后端技术及数据库领域的发展趋势,将合适的技术与方法论引入项目,提升开发效率与产品竞争力。

更新于 2025-09-30北京