logo of pinduoduo

拼多多高性能计算工程师

社招全职5年以上技术类地点:上海状态:招聘

任职要求


1、扎实的计算机体系架构基础,五年以上C/C++开发经验。2、熟悉Linux/Unix开发环境,熟悉Linux下性能剖析和优化工具。3、熟悉TensorRT/TVM/XLA/MLIR等DAG优化技术4、了解CUDA kernel实现在GPU 硬件结构底层。5…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、加入系统联合优化团队,负责服务框架开发、性能瓶颈分析以及调优,为电商推荐场景下提供全栈式 Compiler+Serving+Benchmark 不同层级优化方案。2、负责通过新硬件引入,软硬结合优化, 在异构计算硬件上,挤压算力的极限降低服务资源成本。3、负责持续跟踪业界最优实现深度学习模型,从训练到部署的并结合实际场景超越并创新。
包括英文材料
C+
C+++
Linux+
Unix+
TensorRT+
CUDA+
还有更多 •••
相关职位

logo of sensetime
社招系统开发

1. 端侧部署与性能优化:主导世界模型及辅助驾驶的软件架构设计及芯片部署方案落地,综合运用指令集优化、线程调度策略、内存池管理等技术,实现极致性能与资源利用率。 2. 新平台可行性评估:系统性评估模块 SDK 在车载新平台的适配潜力,输出技术可行性报告及性能优化路径规划。 3. 芯片生态深度协作:聚焦英伟达等主流车载芯片平台,完成模型部署与推理性能调优;结合系统及硬件架构特性,协同芯片厂商实现软硬件本地化定制开发,驱动业务需求落地。

更新于 2025-06-12北京|合肥|上海
logo of insta360
社招3年以上

1.负责AI及传统图像、视频算法工程化 2.负责各个算法在特定处理器上的极致优化,包括但不限于指令集、cache、带宽、GPU优化 3.负责分析各个算法的性能瓶颈点,并与算法同事进行反馈,进一步保效提速降负载 4.负责算法SDK的封装,输出到下游部门进行集成,并进行性能和效果对齐

更新于 2024-06-01深圳
logo of sensetime
社招1-5年后端开发

职位描述: 1、负责多模态场景下高性能推理计算平台开发,支撑业务场景下的训练、推理性能优化需求并推动业务落地; 2、负责自研高性能引擎建设,跟进前沿技术,补足关键能力,构建领先的高性能推理平台; 3、负责基于GPU/CPU构建推理系统,并推进AI系统技术的先进水平,以加速多模态视觉及语言模型; 4、负责音频+视频+文本多模态的完整工程周期的开发,包括加速数据准备/处理、模型部署评估等。

更新于 2025-11-12深圳
logo of tencent
社招5年以上CSIG技术

1.超大规模LLM性能工程: 主导并规划千亿参数级大模型的极致性能优化技术路线。负责 PagedAttention、连续批处理等核心调度策略的深度定制与生产级架构设计,负责 vLLM/TensorRT-LLM 等主流推理框架的内核级优化与落地; 2.低比特与稀疏模型优化: 牵头 INT4/FP8/AWQ 等前沿低比特量化技术的工业级系统化落地,平衡精度与计算效率。并设计面向 MoE 模型的分布式调度、路由、显存管理及跨卡通信的优化方案; 3.统一与多模态架构: 定义并设计一套具备长期扩展性的统一 AI 推理引擎架构,以支撑自回归生成任务,并前瞻性地解决多模态大模型(如视觉-语言模型)的协同推理部署挑战; 4.异构算力与国产化适配: 主导推理引擎在国产AI芯片(如昇腾、海光、天数等)平台上的战略级移植、生态适配与性能优化。对 HCCL/NCCL 等通信原语进行深度优化和定制,实现跨异构架构的算力自主可控; 5.核心算子优化与指令架构创新 (Enhanced Focus):深度介入 GPU/NPU 硬件底层,主导设计和实现LLM特有高性能算子。 重点包括:高性能Attention Kernel、矩阵乘法(GEMM)的深度定制与融合、KV Cache读写优化等关键算子; 6.具备深入理解和利用硬件指令集架构(ISA)和微架构(Microarchitecture)的能力, 通过 CUDA/Triton 或国产芯片底层编程语言,进行SIMD/SIMT指令优化、指令级并行(ILP)及寄存器重用等,将LLM推理性能推向硬件理论极限。

更新于 2025-12-09上海