logo of pinduoduo

拼多多深度学习大模型推理系统研发专家

社招全职3年以上技术类地点:上海状态:招聘

任职要求


1. 计算机,通信相关专业本科以上学历,3年以上后端服务开发经验
2. 精通Linux平台下的C/C++/Python语言, 具备扎实的编程功底与技术设计品味
3. 精通高性能计算,  熟悉CUDA/OpenMPI的编程,  熟悉tensorflow/pytorch/vllm/sglang 等框架的研发与使用
4. 有分布式系统相关研…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 从传统模型到深度模型,  从LLM到多模态Agent, 负责面向不同业务线的不同模型的在线推理系统, 是工程与算法的深度交融的舞台
2. 基于K8S的云原生在线生态系统, 承接大规模分布式系统的运维挑战,  提供产品化一站式的服务能力
3. 参与传统框架(tensorflow/pytorch/xgb)到LLM框架(vllm/sglang/lmdeploy), 以及编译优化(MLIR/TVM/Triton) 的持续研发与调优工作
4. 负责从底层算子调优, 模型编译, 框架调度, RDMA, PD分离部署, 多卡协同 等各个领域的研发与创新
包括英文材料
学历+
Linux+
C+
C+++
Python+
CUDA+
TensorFlow+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

作为推理系统与引擎的研发和优化专家,将主导或参与面向Qwen等模型的真实业务工作负载的端到端推理性能分析与优化工作,具体职责包括但不限于: - 针对重点模型实际业务场景下的推理部署方案进行不同层级的性能验证,对典型负载特征进行深入分析建模,支撑模型演进、推理架构选型与资源规划; - 根据任务负载特点,对模型不同并行策略(如TP/DP/EP/PP/CP)进行深入分析,并结合分布式部署架构(PD/AF分离等),实现和验证不同层面技术的协同优化方案,提升端到端性能; - 分析和验证不同后端高性能Kernel在不同模型和负载下的性能表现,根据具体需求对关键算子运用各类优化手段进行定制化加速,提升硬件利用率; - 关注和探索前沿快速解码技术方法以及其它推理优化和加速技术,结合实际场景进行验证,并在推理系统与各类优化方案无缝集成,提供极致的用户体验; - 与周边工程、模型、系统、产品团队紧密协作,将优化成果落地到生产环境,并持续跟踪线上性能表现。

更新于 2026-04-02北京
logo of aligenie
社招5年以上

作为推理系统与引擎的研发和优化专家,将主导或参与面向Qwen等模型的真实业务工作负载的端到端推理性能分析与优化工作,具体职责包括但不限于: - 针对重点模型实际业务场景下的推理部署方案进行不同层级的性能验证,对典型负载特征进行深入分析建模,支撑模型演进、推理架构选型与资源规划; - 根据任务负载特点,对模型不同并行策略(如TP/DP/EP/PP/CP)进行深入分析,并结合分布式部署架构(PD/AF分离等),实现和验证不同层面技术的协同优化方案,提升端到端性能; - 分析和验证不同后端高性能Kernel在不同模型和负载下的性能表现,根据具体需求对关键算子运用各类优化手段进行定制化加速,提升硬件利用率; - 关注和探索前沿快速解码技术方法以及其它推理优化和加速技术,结合实际场景进行验证,并在推理系统与各类优化方案无缝集成,提供极致的用户体验; - 与周边工程、模型、系统、产品团队紧密协作,将优化成果落地到生产环境,并持续跟踪线上性能表现。

更新于 2026-04-02北京
logo of aliyun
社招5年以上云智能集团

作为通义万相的AI infra训推优化团队,你将有机会参与或负责以下工作内容: ● 对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能; ● 针对多种异构AI加速硬件,对核心算子进行极致性能优化,结合量化、蒸馏、cache等技术,降低视频推理成本; ● 开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量; ● 持续关注并跟进业界技术发展,积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。

更新于 2025-12-19北京|杭州
logo of aliyun
社招5年以上云智能集团

● 为大语言模型和多模态模型设计和实现高效的分布式推理架构,支持多节点、多角色、多模型的异构复杂部署模式,以统一、可扩展的方式支持PD分离、多模态多模型分离等部署方式,以及灵活的配比、伸缩等能力。 ● 设计和实现智能的请求与模型调度能力,在高度动态的负载工况下以及多模态模型异构的子模型间做高效的调度,让分布式推理系统具备充分的动态性和适应能力,提升服务的整体效率和质量。 ● 对分布式和多模态推理引擎运行时进行深度优化,提升分布式推理的效率和稳定性:提升组件间协调的效率,降低请求延迟、提升服务吞吐;结合各类推理引擎层面优化以及量化等算法方法提升多模态模型推理效率,同时保证模型效果;提升系统在高并发下的鲁棒性,确保极端负载下的稳定性和性能;引入容错机制、自动恢复和监控报警系统,保证系统的高可用性。 ● 为分布式推理实现高效、通用的数据平面,以统一的方式支持各类数据传输(如PD分离中的KV cache、多模态推理中的中间结果)和存储(KV cache storage)等需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向;积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。

更新于 2025-12-16北京|杭州