平头哥平头哥-深度学习推理引擎研发专家-杭州
任职要求
1、 CS/EE相关领域,5+年工作经验(A Masters or higher degree in Computer Engineering, Computer Science, Applied Mathematics or related computing focused degree (or equivalent experience), 5+ years of relevant software development experience) 2、 熟悉C/C++编程(Excellent C/C++ programming and software design skills, including debugging, performance analysis, and test design). 3、 熟悉深度学习框架,如Tensorflow,Pytorch(Familiar with …
工作职责
1、参与设计和实现推理引擎SDK,提升推理性能、易用性和产品稳定性。(Design and develop inference engine。Focusing on performance、usability and product robustness) 2、参与设计和实现推理引擎的AI编译。包括图融合、各类图优化、算子优化以及自动化调优等(Design and develop AI Compiling。including fusion,graph optimizations、kernel optimization and auto-tuning) 3、参与设计和实现推理引擎的运行时系统。包括内存管理以及资源管理等等。实现高效和稳定的稳定性。(Design and develop runtime system,including memory management and resource management) 4、参与设计和实现大模型的推理优化。基于推理引擎,研发和应用大模型推理优化的技术(Design and optimize LLM inference。Based on inference engine,develop and apply core technology for LLM inference)
1. 负责大模型训练和推理系统的研发和性能优化,包括性能计算性能优化,大模型推理框架,大模型流量调度,高效 CUDA 算子开发,低精度计算,高并发服务请求优化等打造领先的推理引擎。 2. 负责大模型训练和推理等前瞻性技术架构的调研和引入,不限于子图匹配、编译优化、模型量化等。 3. 与算法团队深度合作,进行算法和系统的联合优化,包括分析业务性能瓶颈,通过软硬结合的 方式,高效部署和优化 AIGC 核心业务模型,建设 AI 工具链等能力,支撑 AI 业务的高速发展。
● 设计和实现高效的分布式推理架构,提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能。针对多种异构AI加速硬件(如NVIDIA GPU, AMD GPU, NPU等),对核心算子进行极致性能优化,最大化算力和访存带宽利用率。 ● 探索并实现极低bit量化技术和稀疏化,减少模型存储和计算资源消耗,同时保持推理精度。探索更高效的解码算法,提升生成任务的推理速度。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统,保证系统的高可用性和稳定性。构建灵活的系统架构,支持动态扩展,以应对未来业务增长和技术演进的需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。
● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。
团队介绍:字节跳动搜索团队主要负责抖音、今日头条、西瓜视频等产品的搜索算法创新和架构研发工作。我们使用最前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。主要工作方向包括:1)探索最前沿的NLP技术:从基础的分词、NER,到应用上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战;2)探索跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,让视频搜索拥有更强大的检索能力;3)探索大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你;4)探索千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务,方方面面都进行深入研究和创新。 1、探索搜索引擎与大模型、LLM、MLLM、多模态、计算机视觉、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包含而不限于相关性、权威性、时效性、意图理解能力等;探索LLM适性索引、LLM相关性、生成式召回、排序大模型等; 2、构建大规模高质量数据(数据建设、数据抓取与解析、数据合成等)、训练和优化AI搜索的机器学习模型(多模态内容理解、指令微调、索引筛选、Query分析、Scalable Oversight、Long CoT、模型推理/规划、模型优化、构建全面客观准确的评测体系等); 3、探索推进AI搜索、AIGC创新应用的落地(包含而不限于豆包、电商、抖音、智能硬件、AI找搭配/虚拟穿搭等大模型应用场景),研发以人工智能技术为核心的新技术、新产品,探索满足用户的智能交互需求,提升现实与物理世界的交互能力。