平头哥平头哥-深度学习推理引擎研发专家-杭州
任职要求
1、 CS/EE相关领域,5+年工作经验(A Masters or higher degree in Computer Engineering, Computer Science, Applied Mathematics or related computing focused degree (or equivalent experience), 5+ years of relevant software development experience) 2、 熟悉C/C++编程(Excellent C/C++ programming and software design skills, including debugging, performance analysis, and test design). 3、 熟悉深度学习框架,如Tensorflow,Pytorch(Familiar with …
工作职责
1、参与设计和实现推理引擎SDK,提升推理性能、易用性和产品稳定性。(Design and develop inference engine。Focusing on performance、usability and product robustness) 2、参与设计和实现推理引擎的AI编译。包括图融合、各类图优化、算子优化以及自动化调优等(Design and develop AI Compiling。including fusion,graph optimizations、kernel optimization and auto-tuning) 3、参与设计和实现推理引擎的运行时系统。包括内存管理以及资源管理等等。实现高效和稳定的稳定性。(Design and develop runtime system,including memory management and resource management) 4、参与设计和实现大模型的推理优化。基于推理引擎,研发和应用大模型推理优化的技术(Design and optimize LLM inference。Based on inference engine,develop and apply core technology for LLM inference)
● 设计和实现高效的分布式推理架构,提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能。针对多种异构AI加速硬件(如NVIDIA GPU, AMD GPU, NPU等),对核心算子进行极致性能优化,最大化算力和访存带宽利用率。 ● 探索并实现极低bit量化技术和稀疏化,减少模型存储和计算资源消耗,同时保持推理精度。探索更高效的解码算法,提升生成任务的推理速度。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统,保证系统的高可用性和稳定性。构建灵活的系统架构,支持动态扩展,以应对未来业务增长和技术演进的需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。
● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。

1、负责大模型平台的数据和模型训推的工具链的开发 2、负责机器学习平台的数据和模型训推的工具链的开发 3、负责Agent编排和Tool Use、MCP等引擎的开发
团队介绍:AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责字节跳动机器学习训练/推理框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练/推理框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。