logo of aliyun

阿里云研究型实习生 - 大语言模型推理优化

实习兼职阿里云研究型实习生地点:北京 | 杭州状态:招聘

任职要求


研究探索大预言模型模型的推理服务的新方法,产出高水平…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


本项目主要关注大语言模型的部署环节,以解决大语言模型推理框架中的如下技术问题: 1. 优化单服务实例的性能和成本:配合前沿模型压缩算法探索高性能算子的前沿方向、创新注意力算子(Attention)实现方式、通过编译优化等手段提升模型推理性能;结合大语言模型服务的场景特性,创新请求调度算法,优化用户体验和系统吞吐;结合算法创新,采用上下文稀疏、投机采样等方法加速解码(Decoding)过程。 2. 异构硬件适配:以编译技术为基础,探索统一的跨平台优化方法,能敏捷地完成主流的GPU/CPU/NPU等硬件的适配,并在各个平台提供较高的性能。 3. 探索云上单租户多服务、多租场景下的混合部署方法,将不同尺寸、不同访问频度、不同优先级的模型混合部署在异构资源池中,并保证SLA。通过请求调度方法的创新、资源共享方法创新,降低总体部署成本、提升资源利用率和弹性。
包括英文材料
相关职位

logo of tongyi
实习通义研究型实习生

1. 参与设计和实现融合音频理解与生成能力的统一架构,打破传统模型在“理解”与“生成”之间的壁垒; 2. 研究并开发针对长时序音频的高效建模方法,解决上下文保持难题,提升长程语义一致性和事件定位精度; 3. 提升模型在高噪声、低资源、多说话人等复杂环境下的鲁棒性,同时保证生成内容的自然度; 4. 实现跨音频类型的通用表征学习,支持零样本或少样本迁移至新任务或领域; 5. 优化模型推理效率,支持端侧部署与实时交互,满足边缘设备及移动端应用需求。

更新于 2025-12-10北京|杭州
logo of aliyun
实习阿里云研究型实习

数据库智能调优方案研发,具体职责包括: 1.通过应用Agent、RAG等技术,开发大语言模型驱动的数据库智能调优工具,包括自动计划标注管理、表结构优化、自动构建物化视图等能力; 2.设计基于历史SQL运行数据的LLM训练与调优方案,并建设持续在线学习能力; 3.设计智能优化评估工具。

更新于 2025-07-02杭州
logo of aliyun
实习阿里云研究型实习

职位描述: 1.设计和实现面向大模型推理的多层级存储系统,综合利用多种硬件进行数据的存储和迁移管理,优化大模型缓存利用率,提升推理性能; 2.设计负载感知的推理框架自调优能力,设计高效的指标采集模块,能够根据对不同负载自动调优推理框架的参数; 3.优化模型量化以及模型卸载技术,进一步提升单机场景下支持的模型规模; 4.设计高效微调框架,集成并优化微调算法,实现动态策略调度模块,基于任务特征挑选最合适的微调方案。

更新于 2025-07-02杭州
logo of aliyun
实习阿里云研究型实习

当前大语言模型(LLM)推理的快速发展推高了算力需求,推理过程中的 KVCache 技术所需的巨大显存消耗成为显著瓶颈。 目前亟需围绕KVCache的核心竞争力开展技术攻关,解决分级存储效率、动态调度策略、多级缓存协同等关键问题,以形成差异化的技术壁垒。 基于以上背景,本项目期望聚焦如下技术问题的研究: 1.面向大模型推理KVCache场景的分级(显存/内存/存储)缓存池及其多租SLO保障应用; 2.KVCache缓存池的冷热数据分层和压缩等技术应用研究; 3.面向大模型推理的KVCache效果的仿真和模拟量化研究; 4.结合KVCache的AI融合记忆存储系技术研究。

更新于 2025-07-02杭州