腾讯异构Pytorch框架研发工程师/专家
任职要求
1.精通PyTorch框架,对Tensorflow/Mindspore等深度学习框架有一定了解; 2.熟悉当前主流大模型,具有百亿/千亿参数规模大模型的分布式训练经验者优先; 3.掌握并行计算、CUDA编程、网络通信、系统优化及集群硬件架构等HPC相关知识; 4.具备出色的编程能力,熟练使用Python,掌握C++、数据结构与算法设计,熟悉Linux/Unix系统及Shell编程,熟练使用Git进行版本控制; 5.拥有一年以上AI分布式系统研发经验,计算机、人工智能、机器学习等相关专业硕士及以上学历,具有丰富相关经历的本科生也可考虑。
工作职责
1.参与太极分布式深度学习系统的研发工作,重点负责GPU及异构芯片的适配与性能优化; 2.深入研究框架引擎内部机制,参与或主导前沿大模型相关技术的探索与实践; 3.与团队合作,持续提升系统的稳定性和扩展性,确保系统能够满足大规模深度学习任务的需求。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 2、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 3、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。
【业务介绍】 作为公司统一的模型引擎团队,支撑公司内所有搜推广类业务的工程侧工作,包括了模型推理、训练、参数服务器、特征工程等服务,通过引擎能力的持续建设结合多元异构算力为业务提供高效、灵活、稳定的模型服务。 【岗位职责】 1、负责小红书搜广推-机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。
【业务介绍】 作为公司统一的模型引擎团队,支撑公司内所有搜推广类业务的工程侧工作,包括了模型推理、训练、参数服务器、特征工程等服务,通过引擎能力的持续建设结合多元异构算力为业务提供高效、灵活、稳定的模型服务。 【岗位职责】 1、负责小红书搜广推-机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。