logo of aligenie

智能互联智能引擎-大模型推理系统工程师-LLM

社招全职3年以上技术类-开发地点:北京 | 杭州状态:招聘

任职要求


1. 对 AI 算法和 AI 系统工程(如迭代模式、端到端系统设计、工程框架、性能建模等)有比较深刻的理解,至少熟练掌握一种常见深度学习框架。
2. 理解异构计算和软硬件结合优化,在性能优化方面有一定经验。理解 cutlass 和…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


本岗位隶属于我们是阿里巴巴大模型推理团队,负责生成式 AI 领域(主要是图像生成和LLM)的内部产品、训练推理服务系统建设和维护,为淘宝、天猫、聚划算、优酷、闲鱼等多个集团业务部门提供强有力的技术支撑和底层服务能力。

主要工作内容如下:
1. 负责设计开发高性能大模型推理引擎;结合流量调度、并行、Cache 等方法构建大规模分布式模型服务系统。
2. 融合业界前沿的算法工程理论,基于量化、动态剪枝等有损方法进行极致的模型加速和成本优化。
3. 结合数据、算法和工程,协同构建 AI Infra 平台,为生成式 AI 提供端到端解决方案,推动业务创新与实践应用。
包括英文材料
算法+
深度学习+
还有更多 •••
相关职位

logo of mihoyo
校招程序&技术类

1、负责公司各AI推理场景(LLM/多模态/视频等)的推理系统研发和性能优化、资源调度、可观测性搭建、日常维护等工作 2、与算法团队深度合作,进行算法与系统的联合设计与优化(如模型量化、kvcache量化、投机采样等) 3、保持关注行业前沿技术,且有能力和热情开展创新研究

上海|北京
logo of mihoyo
实习程序&技术类

1、负责公司各AI推理场景(LLM/多模态/视频等)的推理系统研发和性能优化、资源调度、可观测性搭建、日常维护等工作 2、与算法团队深度合作,进行算法与系统的联合设计与优化(如模型量化、kvcache量化、投机采样等) 3、保持关注行业前沿技术,且有能力和热情开展创新研究

北京
logo of mihoyo
社招程序&技术类

1、负责公司各AI推理场景(LLM/多模态/视频等)的推理系统研发和性能优化、资源调度、可观测性搭建、日常维护等工作 2、与算法团队深度合作,进行算法与系统的联合设计与优化(如模型量化、kvcache量化、投机采样等) 3、保持关注行业前沿技术,且有能力和热情开展创新研究

北京
logo of bytedance
社招A121315

团队介绍:字节跳动豆包大模型团队(Seed)成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 豆包大模型团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统存储相关组件的设计和开发,服务于大模型推理的各业务场景(LLM/S2S/VLM/多模态等),包括模型分发加载、KV Cache存储和优化,数据IO性能优化,提高推理TTFT、TBT等核心性能指标; 2、负责设计和实现面向大模型推理的多层级存储系统,综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统(HDFS/对象存储)等多种介质进行数据的存储和迁移管理,实现「近计算缓存+远端大容量存储」的一体化分级系统; 3、负责优化大模型KV Cache命中率,从推理框架,流量调度,多级缓存等多个系统纬度入手定制化优化策略;优化数据的读取性能,充分利用近计算侧的NVLink、RDMA高速网络、GPU Direct技术实现数据的高效传输;优化数据副本的存放策略,实现负载流量和存储数据的合理化分布; 4、负责设计和实现高效、易用的数据访问接口,实现和推理框架、引擎的无缝对接,管理KV Cache的生命周期; 5、负责Kubernetes场景下多级存储系统的接入、管理、运维、监控,确保稳定性; 6、负责多机房、多地域、多云场景的系统搭建和容灾,优化跨集群的数据摆放。

更新于 2024-12-20上海