logo of thead

平头哥平头哥-深度学习推理引擎研发专家-杭州

社招全职5年以上技术-芯片地点:杭州状态:招聘

任职要求


1、 CS/EE相关领域,5+年工作经验(A Masters or higher degree in Computer Engineering, Computer Science, Applied Mathematics or related computing focused degree (or equivalent experience), 5+ years of relevant software development experience)
2、 熟悉C/C++编程(Excellent C/C++ programming and software design skills, including debugging, performance analysis, and test design).
3、 熟悉深度学习框架,如Tensorflow,Pytorch(Familiar with …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、参与设计和实现推理引擎SDK,提升推理性能、易用性和产品稳定性。(Design and develop inference engine。Focusing on performance、usability and product robustness)
2、参与设计和实现推理引擎的AI编译。包括图融合、各类图优化、算子优化以及自动化调优等(Design and develop AI Compiling。including fusion,graph optimizations、kernel optimization and auto-tuning)
3、参与设计和实现推理引擎的运行时系统。包括内存管理以及资源管理等等。实现高效和稳定的稳定性。(Design and develop runtime system,including memory management and resource management)
4、参与设计和实现大模型的推理优化。基于推理引擎,研发和应用大模型推理优化的技术(Design and optimize  LLM inference。Based on inference engine,develop and apply core technology for LLM inference)
包括英文材料
C+
C+++
深度学习+
TensorFlow+
还有更多 •••
相关职位

logo of alibaba
社招3年以上技术类-开发

1. 负责大模型训练和推理系统的研发和性能优化,包括性能计算性能优化,大模型推理框架,大模型流量调度,高效 CUDA 算子开发,低精度计算,高并发服务请求优化等打造领先的推理引擎。 2. 负责大模型训练和推理等前瞻性技术架构的调研和引入,不限于子图匹配、编译优化、模型量化等。 3. 与算法团队深度合作,进行算法和系统的联合优化,包括分析业务性能瓶颈,通过软硬结合的 方式,高效部署和优化 AIGC 核心业务模型,建设 AI 工具链等能力,支撑 AI 业务的高速发展。

更新于 2025-12-29杭州
logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的分布式推理架构,提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能。针对多种异构AI加速硬件(如NVIDIA GPU, AMD GPU, NPU等),对核心算子进行极致性能优化,最大化算力和访存带宽利用率。 ● 探索并实现极低bit量化技术和稀疏化,减少模型存储和计算资源消耗,同时保持推理精度。探索更高效的解码算法,提升生成任务的推理速度。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统,保证系统的高可用性和稳定性。构建灵活的系统架构,支持动态扩展,以应对未来业务增长和技术演进的需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。

更新于 2025-09-10北京|杭州|上海
logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。

更新于 2025-07-14北京|杭州
logo of bytedance
社招A219339

团队介绍:字节跳动搜索团队主要负责抖音、今日头条、西瓜视频等产品的搜索算法创新和架构研发工作。我们使用最前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。主要工作方向包括:1)探索最前沿的NLP技术:从基础的分词、NER,到应用上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战;2)探索跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,让视频搜索拥有更强大的检索能力;3)探索大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你;4)探索千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务,方方面面都进行深入研究和创新。 1、探索搜索引擎与大模型、LLM、MLLM、多模态、计算机视觉、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包含而不限于相关性、权威性、时效性、意图理解能力等;探索LLM适性索引、LLM相关性、生成式召回、排序大模型等; 2、构建大规模高质量数据(数据建设、数据抓取与解析、数据合成等)、训练和优化AI搜索的机器学习模型(多模态内容理解、指令微调、索引筛选、Query分析、Scalable Oversight、Long CoT、模型推理/规划、模型优化、构建全面客观准确的评测体系等); 3、探索推进AI搜索、AIGC创新应用的落地(包含而不限于豆包、电商、抖音、智能硬件、AI找搭配/虚拟穿搭等大模型应用场景),研发以人工智能技术为核心的新技术、新产品,探索满足用户的智能交互需求,提升现实与物理世界的交互能力。

更新于 2025-02-25杭州