logo of aliyun

阿里云研究型实习生 - 基于负载与硬件特性协同的大模型训练加速技术研究

实习兼职阿里云研究型实习生地点:杭州状态:招聘

任职要求


1. 完成计算优化的方案设计和实现,成果落地到实际业务…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


本项目致力于解决大模型训练中的核心挑战:如何在确保模型效果的同时,通过技术创新降低训练所需的资源成本。本项目旨在通过算法优化、系统软件优化以及软硬件协同设计,来破解这一难题。具体地: 
(1)算法层面优化: 探索模型结构与算子实现的创新,力求在不牺牲模型效能的基础上,减少计算负担,加速训练过程; 
(2)系统软件优化: 深入优化深度学习编译器与内存管理系统,通过智能调度、算子融合等技术,最大化提升计算、存储、网络带宽等硬件资源的使用效率; 
(3)软硬结合优化: 针对特定硬件架构,定制化训练策略与实现方案,利用深度学习编译器优化,深度挖掘硬件潜力,实现训练加速。
包括英文材料
相关职位

logo of tongyi
实习通义研究型实习生

1. 探索基于大模型的语音双工交互系统关键技术,包括流式语音理解、增量文本生成、打断检测与恢复等; 2. 参与端侧轻量化语音大模型的研发,开展模型压缩(剪枝/量化/蒸馏)、硬件感知优化与高效推理引擎实现; 3. 参与设计并实现端云任务动态协同调度机制,基于网络状态、用户意图、隐私敏感度等多维上下文,智能分配计算负载,实现性能与隐私的最优平衡; 4. 参与构建支持跨端云一致性的多轮对话状态管理框架,确保长上下文语义连贯性与用户记忆的无缝衔接; 5. 参与建立面向真实场景的端云融合语音系统综合评估体系,从延迟、功耗、准确率、鲁棒性到隐私合规性等维度开展系统级测试与优化。

更新于 2025-11-21杭州
logo of aliyun
实习阿里云研究型实习

职位描述: 1.设计和实现面向大模型推理的多层级存储系统,综合利用多种硬件进行数据的存储和迁移管理,优化大模型缓存利用率,提升推理性能; 2.设计负载感知的推理框架自调优能力,设计高效的指标采集模块,能够根据对不同负载自动调优推理框架的参数; 3.优化模型量化以及模型卸载技术,进一步提升单机场景下支持的模型规模; 4.设计高效微调框架,集成并优化微调算法,实现动态策略调度模块,基于任务特征挑选最合适的微调方案。

更新于 2025-07-02杭州
logo of aliyun
实习阿里云研究型实习

面向AI场景下数据库资源优化系统研发,具体职责包括: 1.设计基于深度强化学习(DRL)的CPU/GPU混合负载调度框架,构建基于负载管理器、资源调度器的动态资源分配模型,实现资源利用率与服务质量(QoS)的联合优化; 2.研发“资源预热+缓存预热+计算编排”混合架构,通过热点数据预测模型、计算节点池化技术及数据预热机制,突破对象存储(OSS)水平弹性的性能瓶颈; 3.基于Neon分支技术改进动态数据隔离机制,设计多分支场景下的共享数据访问优化策略,在零冗余存储前提下保障租户间、branch间安全隔离,同时提升多分支并发场景下的数据访问吞吐量。

更新于 2025-07-02杭州
logo of alibaba
实习淘天集团研究型实

1. 参与基于AI Agent的智能运维系统研发,通过多监控指标的时序预测与自适应阈值动态建模技术,构建高效、精准的故障发现与预警体系,支撑企业级运维场景的智能化升级。 2. 探索端到端的AI算法解决方案,提升故障预测的灵活性与准确性。 3. 探索开发基于AI Agent的多监控指标时序预测方案,融合文本、日志、指标等异构数据,实现跨模态特征提取与动态关联分析。 4. 构建自适应阈值动态建模框架,结合在线学习与强化学习技术,实现阈值随业务负载与环境变化的实时调整。

更新于 2025-11-05杭州