logo of mi

小米顶尖应届-全栈异构编译优化工程师--芯片

校招全职地点:北京状态:招聘

任职要求


1. 技术背景:计算机体系结构、编译技术方向博士学历,具备LLVM框架开发经验,熟悉计算机体系结构;
2. 编程能力:熟悉C++14,17标准,熟悉CUDA,OpenCL并行编程者优先;
3. 专业领域:理解SIMT向量化、指令调度算法、内存层次结构优化,了解AI加速器、GPU架构;
4. 系统思维:具有""语言-编译器-硬件""跨层协同经验,能进行性能分析与指令级优化。

工作职责


1.研究构建架构自适应编译系统:基于llvm开发SIMT自动向量化框架与ML驱动的循环优化模块;
2.设计指令集-编译器协同方案:制定SIMT混合指令编码规范,开发编译器性能优化策略;
3.建立全栈验证体系:构建从语言级并行模式→中间表示优化→指令流水线映射的三层性能分析平台,实施软硬件协同调优;
4.分析业界领先的编程语言、指令集架构、编译器架构。

【课题名称】
面向通用计算架构与AI专用领域的智能编译优化技术研究
【课题内容】
研发面向异构计算的编译技术体系,构建""语言设计-编译优化-指令集""垂直协同架构:
1. 设计类CUDA编程语言,融合多级并行原语与显式内存管理,实现从高阶语义到LLVM IR的映射框架;
2. 开发智能编译引擎,创新指令调度与SIMT向量化策略,集成ML驱动的参数自适应机制;
3. 定义可扩展指令集架构,支持VLIW/SIMT混合执行模式与定制化运算指令,构建编译器-芯片联合优化体系。
通过编程语言抽象表达并行模式、编译中间层实施架构感知优化、指令集层实现硬件特性映射的三层联动,形成软硬件深度协同的高性能计算架构。
包括英文材料
学历+
LLVM+
C+++
CUDA+
OpenCL+
算法+
相关职位

logo of tongyi
校招通义2026届秋

我们正在寻找业界顶尖的系统专家,加入我们的AI基础架构团队,共同设计和构建下一代生成式AI的“在线服务操作系统”。您的使命是解决将前沿AI能力(大模型、AI Agent、多模态等)转化为大规模、高效率、高可用在线服务时所面临的系统性、全栈性挑战。您将负责端到端的服务性能与架构演进,从顶层应用到底层硬件,全面提升AI服务的竞争力。 具体职责包括(若你对以下一个或者多个方向感兴趣均欢迎投递): 1. 大规模模型服务平台与智能调度系统设计: (1)负责承载大规模在线模型服务(Serving)平台的核心架构设计与演进,通过对底层推理引擎(如PAI平台提供)的深度适配与协同优化,实现极致的推理吞吐与资源利用率。 (2)设计并实现面向复杂混合负载(长/短序列长度、多Lora、多模型、异构资源、多租户、高/低优先级)的上层智能请求调度与资源管理系统,通过与推理引擎的深度协同,动态调整调度策略,保障服务质量(SLA)并最大化云上服务的性价比。 2. 分布式基础设施与底层硬件优化: (1)负责面向大规模模型服务的分布式推理拓扑管理与通信计算协同优化,针对张量并行、流水线并行等场景,优化跨节点通信(InfiniBand/RoCE, NVLink),降低端到端延迟。 (2)深入理解GPU、NPU等异构硬件架构与特性,负责从服务层面对底层计算、编译优化(由PAI等引擎团队提供)进行性能评测、分析与反馈,驱动端到端的硬件效能提升。 3. AI应用层运行时与算法协同优化: (1)深入AI Agent、检索增强生成(RAG)、多模态理解等复杂应用场景,设计并优化其专用的高效运行时(Runtime),解决长链条、多依赖、异步任务流的性能瓶颈。 (2)负责高性能向量检索(Vector Search)与图计算(Graph Computing)引擎的服务化与集成,优化其在RAG和复杂推理场景下的数据访问与计算效率,实现数据层与模型层的无缝高效协同。

更新于 2025-08-07
logo of mi
校招

1.参与SoC智能调度引擎开发,突破多核异构SoC能效瓶颈,实现设备续航提升20%-30%+; 2.研发基于AI预测模型的动态调度框架,完成CPU/NPU/GPU/DSP混合计算单元毫秒级资源切换与三维能效评估; 3.设计指令级功耗建模工具与自适应DVFS算法,提升典型用户场景10%+的能效提升; 4.深度协同澎湃芯片及小米全栈技术生态,覆盖手机/汽车/机器人等亿级设备,技术成果直通国际顶会转化通道。 【课题名称】 端侧高效整机性能&能效优化技术研究 【课题内容】 小米玄戒芯片能效优化与智能调度体系研究课题背景: 面对手机/汽车/机器人等多场景的极端能效需求,玄戒SoC芯片需突破多核异构的能效瓶颈,通过智能调度引擎与AI驱动的功耗建模技术,构建"芯片+系统+生态"的三维能效优化体系。结合澎湃系列芯片低功耗研发经验(硬件利润率≤5%原则)及AI实验室全栈技术积累,实现续航提升20%-30%+的行业领先能效比,技术成果直通国际顶会转化通道。 挑战: 1. SoC异构计算单元智能调度引擎开发 - 构建基于AI预测模型的动态调度框架,实现CPU/NPU/GPU/DSP混合计算单元的毫秒级资源切换与负载均衡。 - 设计多目标优化算法,在典型用户场景(如多模态交互、自动驾驶感知)中达成计算资源利用率与能效比的协同提升。 2. 指令级功耗建模与自适应能效调控 - 开发面向玄戒O1架构特征的指令级功耗建模工具链,建立微架构-指令-场景的三维能效评估体系。 - 研发自适应DVFS算法与异构缓存协同机制,确保在影像处理、边缘推理等典型场景下实现10%+能效增益。 3. 全栈技术生态协同优化 - 深度整合澎湃芯片家族(C1/G1/S1)的异构调度能力,构建覆盖MIUI系统、车载OS、机器人OS的统一能效优化方案。 - 设计可扩展的调度框架,支持手机/汽车/机器人等设备的差异化能效需求,推动技术方案在IEEE/ACM等顶会的成果转化。

更新于 2025-07-23
logo of mi
校招

1. 围绕终端天线的关键开发活动,完成需求分析与效率瓶颈定位; 2. 通过算法与工具开发,构建自动化的全栈工具链,形成可标准化、可扩展的提效体系; 3. 建立数据反馈机制,监控分析过程数据,实现迭代优化和扩展应用; 4. 形成技术资产沉淀,标准化推广运作和内部培训。 【课题名称】 天线自动化调优与分析的提效平台优化和应用 【课题内容】 1. 构建一套覆盖天线设计、调优、分析的自动化工具链,解决传统人工操作效率低、经验依赖性强的问题,长期围绕AI提效的理念横向扩展; 2. 研究包括但不限于以下方向:FPC天线自动化调优、有源器件参数自动化配置、场测Log数据智能分析等; 3. 匹配业务开发流程,实现核心算法开发与端到端的自动化Demo(从参数生成到实测验证); 4. 透过试点项目的运作,量化研发提效逻辑,实现地域特色能力扩圈; 5. 透过过程数据分析,挖掘潜在的深层次扩展应用,如识别设计边界,基础规律,数据间的隐含关联性等。

更新于 2025-06-25
logo of mi
校招

1. 负责Xiaomi HyperOS中渲染架构重构,设计和实现; 2. 负责渲染领域全栈性能优化工作,涉及上层渲染业务,渲染引擎(skia,impeller等),底层渲染技术等; 3. 负责业内手机系统优秀渲染架构调研,输出对现有渲染架构改进建议及实施; 4. 参与制定渲染架构技术规划,布局关键渲染技术并进行技术突破,提升渲染技术竞争力。 【课题名称】 HyperOS中渲染架构 【课题内容】 1. Android系统中渲染架构研究,例如skia,flutter,impeller等 2. 图形底层渲染技术研究,例如vulkan,opengl等 3. 主流手机系统渲染架构竞分调研,例如鸿蒙系统,iOS等 4. 主流GPU渲染性能优化研究,例如高通Adreno GPU, Mali系列GPU等

更新于 2025-06-26