腾讯异构引擎研发高级工程师(深圳/北京/上海/杭州)
任职要求
1.熟练掌握C/C++、Python编程语言,具备良好的coding和调试能力; 2.熟悉GPU/AI芯片编程,如CUDA,OpenCL,Ascend C等; 3.熟悉常见的算子编译优化和算子调优手段,如torch.compile,triton等; 4.熟悉各类深度学习网络和算子底层实现细节,训练和推理模型调试、调优有实操经验优先; 5.熟悉主流推理框架,如…
工作职责
1.研发及优化推理引擎、PD分离推理调度系统; 2.支持主流GPU和异构AI芯片,优化推理性能,打造极致性能成本优势。
1.配合算法工程师,推动深度学习相关算法的落地,打造高吞吐、低延时的推理系统; 2.优化大模型推理性能,提升吞吐并控制成本; 3.优化大模型推理框架,提升框架易用性和可调试性。
1.参与Pytorch等大模型深度学习框架的研发工作,重点负责GPU及异构芯片的适配与性能优化; 2.深入研究框架引擎内部机制,参与或主导前沿大模型相关技术的探索与实践; 3.与团队合作,持续提升系统的稳定性和扩展性,确保系统能够满足大规模深度学习任务的需求。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 工作职责: 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设; 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 4、参与/负责构建推理框架的系统容错能力,包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设; 5、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 6、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。