百度异构计算工程师 - 加速方向(J82685)
任职要求
-熟悉大模型或者自动驾驶模型结构 -熟悉Megatron、vLLM等大模型训推框架,结合场景做过深度优化 -有非GPU芯片适配和优化经验…
工作职责
-结合LLM技术发展,优化分布式训练和推理框架的性能,各常见模型训推MFU优化到极致状态 -在自研芯片上适配常见的大模型与自驾模型,结合芯片特点做优化,充分发挥自研芯片算力 -探索前沿的训推优化技术,算法、框架、集群协同创新,构建有竞争力的大模型训推系统 -与业务团队协同,理解客户需求,驱动技术创新,业务持续突破
-结合LLM技术发展,优化分布式训练和推理框架的性能,各常见模型训推MFU优化到极致状态 -在自研芯片上适配常见的大模型与自驾模型,结合芯片特点做优化,充分发挥自研芯片算力 -探索前沿的训推优化技术,算法、框架、集群协同创新,构建有竞争力的大模型训推系统 -与业务团队协同,理解客户需求,驱动技术创新,业务持续突破
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 工作职责: 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设; 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 4、参与/负责构建推理框架的系统容错能力,包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设; 5、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 6、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。
1、负责Agent系统的稳定性建设,设计高可用架构与容灾降级方案,保障系统在极端场景下稳定运行; 2、优化系统性能,解决分布式场景下的任务调度、数据一致性、故障自愈等挑战,提升服务SLA; 3、建立系统监控、告警及应急响应机制,负责重大故障的排查与恢复; 4、持续优化系统架构,通过代码重构、性能调优等手段提升系统扩展性与可维护性; 5、探索分布式计算、任务调度、流式数据处理等领域的前沿技术(如分布式事务、弹性扩缩容、异构计算等),推动技术成果转化。