阿里云阿里云智能-异构计算软硬件结合高级研发工程师-深圳/杭州
任职要求
1. 具备扎实的工程能力,精通C++和Python等编程语言,熟悉Cuda/Cutlass/Trition的编程经验,有高性能推理代码和优化经验。 2. 熟悉主流AI加速芯片(如NVIDIA、AMD、寒武纪/DCU等)的系统结构、指令集和计算特性,具备异构计算硬件下的开发和性能优化经验。 3. 熟悉 sglang/vLLM/Pytorch等主流LLM推理框架 、二次开发或深度优化经验 (如KV Cache、编译优化,Speculative、量化,DeepEP等优化技术)。 4. 熟悉服务器硬件架构 (CPU、内存、网络、存储等) 及多异构芯片拓扑结构,具备系统级性能分析与瓶颈定位能力,并能基于硬件特性进行软件适配与优化 5. 具备良好的沟通协作能力和项目组织能力,能与不同背景的团队高效沟通、协同,并对项目进行有效的组织与规划,以确保项目按时按质按量完成。 如下经验优先: 1.性能调优经验: sglang/vLLM 新硬件使能和优化经验, 针对Qwen /DeepSeek 模型优化的经验优先 2.算子优化经验: 针对大模型,具备cutlass,Trition的算子优化,投机采样,TP/EP并行优化经验优
工作职责
1. 基于对主流AI芯片和服务器架构的深刻理解,分析硬件加速特征与内部拓扑结构,提供硬件优化实践和调优指南,确保充分发挥硬件潜能。 2. 结合主流LLM推理框架 (如sglang/vLLM) 和大模型结构及其计算特性,通过软硬件协同优化和技术创新 (包括但不限于硬件算子优化、显存以及并行化等),负责新服务器上的端到端性能分析和优化。 3. 提供场景化的定制优化能力,识别并解决大模型在不同业务场景下的性能瓶颈,快速的给出满足需求的性能优化方案。 4. 熟悉系统调优和Profiling工具 (如 nsys/ncu系列、通用工具如Perf、火焰图等),负责系统级性能分析与瓶颈定位能力,并能基于硬件特性进行软件适配与优化。 5. 洞悉大模型的发展趋势和技术演进,结合硬件Profling和Trace 数据,为下一代AI基础设施的服务器设计与研发提供量化数据分析支持。
1. 负责研发针对AI 硬件的性能画像模型,跟踪业界模型的发展和框架的发展,结合阿里云AI服务器提供场景化的性能预估和优化策略推荐。 2. 负责提供场景化的定制分析能力,分析大模型在不同服务器下的性能差异,快速的给出满足业务的性能优化配置策略,加速业务的部署。 3. 负责调优和Profiling工具的分析和应用,跟踪和分析硬件性能优化技术,快速的使能新AI服务器。 4. 与硬件设计和规划人员协同,结合历史性能数据,提炼性能影响的关键硬件特征和需求,为下一代AI基础设施的服务器设计提供输入。
方向一: 1.负责针对相机的计算成像的算法原型研发和演进 - 基础图像算法如3R(NoiseReduction, SuperResolution, HDR), 多帧多摄等; - 图像后处理算法如美颜、色彩映射,图像渲染等; - 软硬件结合图像算法如ISP(image signal processor)算法的开发调优、白平衡、自动对焦、自动曝光控制,色彩还原,多摄立体视觉,防抖算法的迭代进化等; 2.AI技术应用影像业务,利用机器学习,深度学习,模型压缩及小型化等前沿技术,解决low-level画质处理,语义理解等多领域核心问题,整体提升用户体验和业务价值; 3.针对android平台和手机soc芯片的图像处理算法架构设计的基础研究,实现全链路影像处理链路的端到端性能最优设计;针对图像/视频效果进行标准定义和定量评测的理论研究; 4.对于前沿技术的动态进行追踪,主导高校产学研合作或供应商技术合作,实现新的影像算法领域探索和技术创新。 方向二: 1.模型性能分析与优化 1)负责影像端侧模型性能分析与调优,包括推理速度、内存占用、功耗等关键指标优化; 2)设计并优化量化、剪枝、蒸馏等模型压缩技术,推动算法在移动端的高效部署; 3)针对GPU/NPU/DSP等硬件特性模型结构,识别模型运行中的瓶颈并提出改进方案,提升端侧推理效率。 2.技术预研与落地 1)跟踪行业前沿技术(如大模型端侧优化、模型压缩等),完成技术验证并推动业务落地; 2)协同算法团队优化模型架构,平衡性能与精度需求。 3)与硬件、系统框架团队合作,优化底层驱动及系统资源调度策略,提升模型运行效率;
1. 负责FPGA/芯片产品的架构和系统方案设计,定义软硬件接口和FPGA逻辑架构, 完成逻辑设计和开发、测试、上线、运维等全生命周期的研发工作; 2. 负责相关FPGA/芯片的性能优化和稳定性保障,持续提升多媒体处理硬件方案的性能和稳定性,确保系统安全、稳定、高效运行; 3. 参与多媒体处理等新技术预研和规划,跟踪业务需求和行业技术变化,进行产品规划和FPGA架构演进;包括图像视频生成软硬结合加速技术,推理框架硬件并行加速技术,图像视频编解码硬件加速技术,其它图像处理硬件加速技术等。