夸克智能信息-大模型推理优化专家-算子优化

社招全职3年以上2025-11-30地点：杭州 | 广州 | 北京状态：招聘

扫码手机上打开

任职要求

1、精通C++/CUDA/Python编程，对计算机体系结构、并行计算有深刻理解；
2、具备手写高性能CUDA内核的经验，深入理解GPU架构（如Tensor Cores, Memory Hierarc…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、深入理解硬件架构（GPU微架构、内存层次结构），进行深度手写核函数优化、算子融合与计算调度优化；
2、设计并实现高性能Kernel，优化核心算子（如Attention,MLP，激活函数等）在多款通用GPU硬件上的性能；
3、实施并创新算子融合（Kernel Fusion）策略，将多个操作融合为单一内核，减少内存读写开销和内核启动延迟；
4、 探索和应用模型量化（INT8/INT4/FP8/FP4等）技术，并开发配套的高性能量化算子。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+

C+++

Python+

Linux+

机器学习+

算法+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

时空数据流调度专家

社招5年以上智能与信息技术

职位描述 1、承接端到端自动驾驶/大语言各类前沿AI模型负载，面向自研AI芯片，聚焦研发设计AI模型的数据流时空调度算法、编译软件栈，实现高性能推理； 2、参与AI模型的时空数据流调度器构建，包括数学建模、算法开发、计算图优化，用简洁优美的数学方法，将大规模计算图负载切分、调度到自研AI芯片上，验证正确性、优化AI负载的推理性能； 3、参与AI算子库的开发和优化，支撑算法模型推理所需算子的功能和基本性能要求，分析性能瓶颈，构建方案优化； 4、与自研芯片架构师合作，协助芯片架构设计与演进，参与制定芯片软硬件协作方案。

北京

阿里云智能-AI集群通信优化高级技术专家-北京/杭州

社招8年以上云智能集团

1、技术方案设计 • 调研AI大模型训练及推理的前沿技术发展，分析计算通信协同优化的技术方案； • 分析客户需求，帮助客户使用我们的产品和解决方案，帮忙客户进行性能优化； 2、技术实现 • 负责AI计算系统的通信优化方案设计，包括计算通信协同优化、通信库研发测试、以及交付与支持； • 基于技术方案的拆解，按照任务目标和产出规范，完成任务/子任务的设计、编码开发和系统功能实现； • 负责核心功能的架构与代码模板的编写，开发与维护系统公用核心模块，技术架构重构、优化等； • 对编码进行阶段性的讨论和CodeReview，并通过调试优化，推动代码成功部署； • 对开发中和部署后的程序进行必要的维护和迭代，包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等。 3、稳定性和性能优化 • 制定稳定性策略，寻找并解决产品系统中的潜在风险和瓶颈，覆盖线上疑难杂症问题，确保系统的安全可靠； • 运用产品优化技术和方法，进行性能优化，提高产品稳定性和性能。 4、技术预研 • 分析AI业务通信pattern和发展趋势，探索通信库的优化空间，以及AI计算系统全栈的协同设计，提升系统端到端的稳定性和性能。 5、技术规划 • 理解业务战略及重点，基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-25北京|杭州

智能信息-大模型推理优化专家-通信优化

社招3年以上

1、专注于解决大规模分布式模型推理中的通信瓶颈，优化通信效率； 2、深入分析NCCL/MPI等通信库在All-Reduce、All-Gather等集合操作中的性能问题，并利用GPUDirect RDMA、InfiniBand等高速网络技术进行底层优化； 3、设计与实现异步通信、计算-通信重叠、拓扑感知集合通信等策略，实现通信与计算的高效重叠，最大化GPU集群在TP/PP/EP等并行场景下的整体效率。

更新于 2025-11-30杭州|广州|北京

智能信息-大模型训练优化专家-强化学习

社招1年以上

1、负责千卡以上规模文本及多模态大模型强化学习训练框架建设；为Quark、通义等过亿用户，提供大模型后训练能力，持续优化模型效果； 2、负责调研和实现业界先进的强化学习方法，并探索算法工程结合的训练方法创新设计，实现模型性能和训练效率的双提升； 3、负责训练效率极致优化，通过前沿技术的调研、引入，以及机制创新，实现业界领先的训练吞吐能力。

更新于 2025-11-30北京|杭州|广州