logo of mi

小米顶尖应届-大模型推理加速工程师-AI平台

校招全职地点:北京状态:招聘

任职要求


1. 编程能力 :精通C/C++,熟悉Python,具备扎实的数据结构算法基础,ACM/ICPC、NOI等竞赛获奖者优先;
2. GPU与CUDA :熟悉NVIDIA GPU架构及编程模型,掌握CUDA核函数优化、显存管理、多流并发等技术,有实际性能调优经验;
3. 框架与工具 :熟悉PyTorchMegatronvLLM/SGLang等深度学习训练和推理框架;
4. 工程经验 :有分布式系统开发经验,熟悉MPI、NCCL等通信库,或参与过大模型训练/推理项目者优先;
5. 学历背景 :计算机/电子/数学等相关专业硕士及以上学历

工作职责


1. 负责大语言模型线上推理框架的性能优化,解决高并发、低延迟、高可靠性等核心问题,提升服务吞吐量与稳定性;
2. 设计并实现分布式大模型推理系统,优化多卡(如NVIDIA GPU集群)资源调度与通信效率,支持千卡级训练/推理场景;
3. 深度适配NVIDIA GPU硬件架构,利用CUDA、cuDNN等工具链进行算子级优化,提升模型计算效率与显存利用率;
4. 调研并引入前沿技术(如异构计算、AI编译器优化),推动模型量化、蒸馏等轻量化方案落地。

【课题名称】
大模型分布式推理加速
【课题内容】
探索和实现大模型大规模推理加速包括分布式推理架构,模型和算法优化等。
包括英文材料
C+
C+++
Python+
数据结构+
算法+
CUDA+
性能调优+
PyTorch+
Megatron+
vLLM+
深度学习+
分布式系统+
大模型+
学历+
相关职位

logo of mi
校招

1、创新应用和模型结构分析和建模:对新MoE模型,Transformer优化模型,非Transformer模型,语音模型,视觉模型进行计算特征,访存特征,通信特征分析建模; 2、推理系统优化技术:基于应用特征,自顶向下分析推理软件栈可优化手段,从推理调度,KV Cache管理,推理引擎,算子,并行切进行协同优化; 3、模型压缩:探索低精度损失的低比特量化(如INT4/INT2量化)或稀疏化等算法,缓解大模型推理计算与内存开销; 4、长序列优化:通过序列压缩、序列并行等算法,在有限的部署资源上(如单机)实现1M甚至10M长序列高效推理; 5、提供高性能轻量级AI推理引擎:分析当前CPU执行AI推理的性能瓶颈,通过先进AI算法技术(比如Sparsicity等)和编译优化技术(auto-tiling等),结合BW芯片众核、大带宽、高矢量的架构特征,挑战性能天花板,推动AI4Compiler技术切实落地。 【课题名称】 大模型负载分析和推理系统优化。 【课题内容】 结合端侧设备的功耗、面积和实时性限制,探索自动优化方法研究,沉淀算子、模型及应用级优化方法,识别加速最优解决方案,并能够实施自动化化优化技术研究&应用。实现计算过程中的高效协同,发挥各类计算单元的有效算力;在算力墙、内存墙、通信墙等各维度平衡取舍发挥系统综合最优性能。

更新于 2025-07-23
logo of quark
校招智能信息秋季20

1. 跨模态长程预训练:设计并实现文本、图像、视频等多模态对齐与融合的长程训练策略,操控万卡级 GPU 集群,协同 Pretrain / CPT / SFT / RLVR / RLHF 全链路,对超大参数基座模型进行高效分布式优化。 2. 前沿技术攻坚:深入探索 MoE 稀疏化、训练算法与对齐范式创新、可解释性与质量监控、多模态推理、mRAG、百万 Token 级长文处理、Agent&工具链机制等底层原理与技术。 3. 高性能训练框架持续升级:与系统团队共建张量并行、流水并行、混合精度等高性能训练框架,持续提升训练吞吐与稳定性。 4. 学术与行业影响力打造:快速跟踪 NeurIPS / CVPR / ACL 等顶会成果及开源项目,输出专利与论文,树立行业技术标杆 5. 高速驱动夸克AI相关业务:赋能夸克 AI 相机、AI 搜索·深度思考、DeepResearch、创意写作、AI 助手等核心产品,实现多模态能力的快速迭代与落地。 加入我们,你将获得 1. 顶尖资源:与行业专家并肩作战,万卡算力与海量数据随手可用,持续挑战技术天花板。 2. 高速成长:极具竞争力的薪酬福利与纯粹的工程师文化,为你的职业加速。 3. 时代机遇:亲历 AGI 关键技术的诞生与规模化应用,在智能时代留下你的名字。 如果你渴望驰骋于大模型与 AGI 的蓝海,这里就是你的最佳舞台。立即加入我们,共创智能新时代!

更新于 2025-08-13
logo of mi
校招

1.负责大模型在内的各类算法的移动端部署与优化; 2.负责移动端深度学习框架开发及算子优化; 3.不断挖掘移动芯片算力潜能,改良模型结构,实现业界领先的算法执行效能; 4.撰写相关论文,专利。 【课题名称】 端侧大模型效能优化 【课题内容】 解决大模型落地涉及的性能功耗内存限制,实现最高效的大模型推理方案。

更新于 2025-06-25
logo of mi
校招

1、参与SoC低功耗整体策略制定与系统设计方案分析; 2、负责低功耗系统框架下全系统状态控制、调频调压、底层温控等技术方案设计开发; 3、负责SoC启动、MCU小系统控制、功耗建模等技术方案设计开发; 4、负责全芯片时钟复位方案设计交付、特殊实现与关键IP技术迭代; 5、支撑EDA/EMU/FPGA验证、IP/子系统功耗优化迭代与回片闭环。 【课题名称】大模型负载分析和推理系统优化 【课题内容】结合端侧设备的功耗、面积和实时性限制,探索自动优化方法研究,沉淀算子、模型及应用级优化方法,识别加速最优解决方案,并能够实施自动化化优化技术研究&应用。 实现计算过程中的高效协同,发挥各类计算单元的有效算力;在算力墙、内存墙、通信墙等各维度平衡取舍发挥系统综合最优性能。

更新于 2025-07-29