平头哥平头哥-深度学习推理引擎研发专家-杭州
任职要求
1、 CS/EE相关领域,5+年工作经验(A Masters or higher degree in Computer Engineering, Computer Science, Applied Mathematics or related computing focused degree (or equivalent experience), 5+ years of relevant software development experience) 2、 熟悉C/C++编程(Excellent C/C++ programming and software design skills, including debugging, performance analysis, and test design). 3、 熟悉深度学习框架,如Tensorflow,Pytorch(Familiar with …
工作职责
1、参与设计和实现推理引擎SDK,提升推理性能、易用性和产品稳定性。(Design and develop inference engine。Focusing on performance、usability and product robustness) 2、参与设计和实现推理引擎的AI编译。包括图融合、各类图优化、算子优化以及自动化调优等(Design and develop AI Compiling。including fusion,graph optimizations、kernel optimization and auto-tuning) 3、参与设计和实现推理引擎的运行时系统。包括内存管理以及资源管理等等。实现高效和稳定的稳定性。(Design and develop runtime system,including memory management and resource management) 4、参与设计和实现大模型的推理优化。基于推理引擎,研发和应用大模型推理优化的技术(Design and optimize LLM inference。Based on inference engine,develop and apply core technology for LLM inference)
● 设计和实现高效的分布式推理架构,提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能。针对多种异构AI加速硬件(如NVIDIA GPU, AMD GPU, NPU等),对核心算子进行极致性能优化,最大化算力和访存带宽利用率。 ● 探索并实现极低bit量化技术和稀疏化,减少模型存储和计算资源消耗,同时保持推理精度。探索更高效的解码算法,提升生成任务的推理速度。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统,保证系统的高可用性和稳定性。构建灵活的系统架构,支持动态扩展,以应对未来业务增长和技术演进的需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。
● 强化学习训推分离架构优化,构建解耦的“训练-采样”系统架构,支持高并发采样与异步训练更新; 研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制;实现弹性扩缩容、故障恢复、版本管理等系统能力,提升整体稳定性与可扩展性。 ● 后训练 MFU(Model FLOPs Utilization)优化。研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈;设计高MFU的训练策略与系统支持,优化计算密度(如序列填充、混合批次、梯度累积等);探索算力利用率提升路径,结合通信、显存、计算进行端到端建模与优化。 ● 强化学习推理框架优化,针对RLHF中大量采样推理的需求,优化推理延迟与吞吐(如Speculative Decoding、KV Cache复用、动态批处理);设计轻量、高效的推理引擎,支持多轮对话、长上下文、流式生成等复杂场景;探索训练-采样协同优化,降低推理端对训练整体效率的制约。 ● Agent 框架优化与系统支撑,研究面向复杂任务的Agent执行框架,优化工具调用、状态管理、多步规划的系统性能;构建低延迟、高并发的Agent运行时环境,支持大规模仿真与自动评估;探索Agent工作流的可复现性、可观测性与调试支持,提升研发效率。

● 强化学习训推分离架构优化,构建解耦的“训练-采样”系统架构,支持高并发采样与异步训练更新; 研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制;实现弹性扩缩容、故障恢复、版本管理等系统能力,提升整体稳定性与可扩展性。 ● 后训练 MFU(Model FLOPs Utilization)优化。研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈;设计高MFU的训练策略与系统支持,优化计算密度(如序列填充、混合批次、梯度累积等);探索算力利用率提升路径,结合通信、显存、计算进行端到端建模与优化。 ● 强化学习推理框架优化,针对RLHF中大量采样推理的需求,优化推理延迟与吞吐(如Speculative Decoding、KV Cache复用、动态批处理);设计轻量、高效的推理引擎,支持多轮对话、长上下文、流式生成等复杂场景;探索训练-采样协同优化,降低推理端对训练整体效率的制约。 ● Agent 框架优化与系统支撑,研究面向复杂任务的Agent执行框架,优化工具调用、状态管理、多步规划的系统性能;构建低延迟、高并发的Agent运行时环境,支持大规模仿真与自动评估;探索Agent工作流的可复现性、可观测性与调试支持,提升研发效率。
● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。