小米顶尖应届-端云协同多模态大模型算法工程师-汽车
我们正在寻找业界顶尖的系统专家,加入我们的AI基础架构团队,共同设计和构建下一代生成式AI的“在线服务操作系统”。您的使命是解决将前沿AI能力(大模型、AI Agent、多模态等)转化为大规模、高效率、高可用在线服务时所面临的系统性、全栈性挑战。您将负责端到端的服务性能与架构演进,从顶层应用到底层硬件,全面提升AI服务的竞争力。 具体职责包括(若你对以下一个或者多个方向感兴趣均欢迎投递): 1. 大规模模型服务平台与智能调度系统设计: (1)负责承载大规模在线模型服务(Serving)平台的核心架构设计与演进,通过对底层推理引擎(如PAI平台提供)的深度适配与协同优化,实现极致的推理吞吐与资源利用率。 (2)设计并实现面向复杂混合负载(长/短序列长度、多Lora、多模型、异构资源、多租户、高/低优先级)的上层智能请求调度与资源管理系统,通过与推理引擎的深度协同,动态调整调度策略,保障服务质量(SLA)并最大化云上服务的性价比。 2. 分布式基础设施与底层硬件优化: (1)负责面向大规模模型服务的分布式推理拓扑管理与通信计算协同优化,针对张量并行、流水线并行等场景,优化跨节点通信(InfiniBand/RoCE, NVLink),降低端到端延迟。 (2)深入理解GPU、NPU等异构硬件架构与特性,负责从服务层面对底层计算、编译优化(由PAI等引擎团队提供)进行性能评测、分析与反馈,驱动端到端的硬件效能提升。 3. AI应用层运行时与算法协同优化: (1)深入AI Agent、检索增强生成(RAG)、多模态理解等复杂应用场景,设计并优化其专用的高效运行时(Runtime),解决长链条、多依赖、异步任务流的性能瓶颈。 (2)负责高性能向量检索(Vector Search)与图计算(Graph Computing)引擎的服务化与集成,优化其在RAG和复杂推理场景下的数据访问与计算效率,实现数据层与模型层的无缝高效协同。
1、参与或主导Vector/Matrix单元微架构和算子设计,并进行性能、功耗论证; 2、参与或主导Vector/Matrix单元RTL实现与调优; 【课题名称】 通用处理器Vector及Matrix计算单元微架构及算法研究。 【课题内容】 背景:随着AI芯片在深度学习领域的爆发式应用,专用加速器在特定场景下展现出显著优势。然而通用处理器作为计算生态的核心底座,仍需在混合计算负载支持、能效比优化及异构协同能力等维度持续突破: 1. AI规模化部署需求:边缘计算、云边端协同等场景要求通用处理器高效处理AI预处理、逻辑控制与非结构化任务; 2. 摩尔定律放缓倒逼创新:在制程红利递减背景下,需通过微架构革新提升单位晶体管效能; 3. 异构计算融合趋势:通用处理器需与AI加速器深度协同,构建"CPU+XPU"的动态计算网络; 关键挑战: 1. 通用性与效率的平衡 如何在支持多样化指令集的同时,保持对AI算子(如矩阵乘、张量计算)的高效加速; 2. 动态资源调度复杂性 多任务场景下的缓存一致性、乱序执行、分支预测等机制需重构优化; 3. 异构计算通信瓶颈 跨架构内存共享、任务分配策略、低延迟互连协议设计; 4. 能效比突破困境 在先进制程逼近物理极限时,如何通过近似计算、存算一体等架构创新实现能效跃升;
1. 负责设计和实现隐私保护算法,包括但不限于差分隐私、同态加密、安全多方计算等; 2. 参与隐私计算平台的架构设计和优化,确保系统的高性能和高可用性; 3. 与产品和业务团队紧密合作,理解业务需求,提供技术解决方案; 4. 持续关注隐私计算领域的最新研究成果,推动技术创新和应用落地; 5. 编写高质量的技术文档,参与代码审查,确保代码质量和团队协作。 【课题名称】 基于隐私计算的数据保护研究 【课题内容】 满足端云协同场景的隐私计算协议优化