阿里云研究型实习生 - 基于负载与硬件特性协同的大模型训练加速技术研究

实习兼职阿里云研究型实习生2024-07-12地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 完成计算优化的方案设计和实现，成果落地到实际业务…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

本项目致力于解决大模型训练中的核心挑战：如何在确保模型效果的同时，通过技术创新降低训练所需的资源成本。本项目旨在通过算法优化、系统软件优化以及软硬件协同设计，来破解这一难题。具体地： 
（1）算法层面优化： 探索模型结构与算子实现的创新，力求在不牺牲模型效能的基础上，减少计算负担，加速训练过程； 
（2）系统软件优化： 深入优化深度学习编译器与内存管理系统，通过智能调度、算子融合等技术，最大化提升计算、存储、网络带宽等硬件资源的使用效率； 
（3）软硬结合优化： 针对特定硬件架构，定制化训练策略与实现方案，利用深度学习编译器优化，深度挖掘硬件潜力，实现训练加速。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

相关职位

研究型实习生-端云融合的大模型语音交互系统研发与优化

实习通义研究型实习生

1. 探索基于大模型的语音双工交互系统关键技术，包括流式语音理解、增量文本生成、打断检测与恢复等； 2. 参与端侧轻量化语音大模型的研发，开展模型压缩（剪枝/量化/蒸馏）、硬件感知优化与高效推理引擎实现； 3. 参与设计并实现端云任务动态协同调度机制，基于网络状态、用户意图、隐私敏感度等多维上下文，智能分配计算负载，实现性能与隐私的最优平衡； 4. 参与构建支持跨端云一致性的多轮对话状态管理框架，确保长上下文语义连贯性与用户记忆的无缝衔接； 5. 参与建立面向真实场景的端云融合语音系统综合评估体系，从延迟、功耗、准确率、鲁棒性到隐私合规性等维度开展系统级测试与优化。

更新于 2025-11-21杭州

研究型实习生 - 大模型推理加速以及高效微调核心技术研究

实习阿里云研究型实习

职位描述： 1.设计和实现面向大模型推理的多层级存储系统，综合利用多种硬件进行数据的存储和迁移管理，优化大模型缓存利用率，提升推理性能； 2.设计负载感知的推理框架自调优能力，设计高效的指标采集模块，能够根据对不同负载自动调优推理框架的参数； 3.优化模型量化以及模型卸载技术，进一步提升单机场景下支持的模型规模； 4.设计高效微调框架，集成并优化微调算法，实现动态策略调度模块，基于任务特征挑选最合适的微调方案。

更新于 2025-07-02杭州

研究型实习生 - 面向AI场景下的数据库资源优化

实习阿里云研究型实习

面向AI场景下数据库资源优化系统研发，具体职责包括： 1.设计基于深度强化学习（DRL）的CPU/GPU混合负载调度框架，构建基于负载管理器、资源调度器的动态资源分配模型，实现资源利用率与服务质量（QoS）的联合优化； 2.研发“资源预热+缓存预热+计算编排”混合架构，通过热点数据预测模型、计算节点池化技术及数据预热机制，突破对象存储（OSS）水平弹性的性能瓶颈； 3.基于Neon分支技术改进动态数据隔离机制，设计多分支场景下的共享数据访问优化策略，在零冗余存储前提下保障租户间、branch间安全隔离，同时提升多分支并发场景下的数据访问吞吐量。

更新于 2025-07-02杭州

研究型实习生-业务技术-AI Agent应用算法实习生（SRE 故障监测）

实习淘天集团研究型实

1. 参与基于AI Agent的智能运维系统研发，通过多监控指标的时序预测与自适应阈值动态建模技术，构建高效、精准的故障发现与预警体系，支撑企业级运维场景的智能化升级。 2. 探索端到端的AI算法解决方案，提升故障预测的灵活性与准确性。 3. 探索开发基于AI Agent的多监控指标时序预测方案，融合文本、日志、指标等异构数据，实现跨模态特征提取与动态关联分析。 4. 构建自适应阈值动态建模框架，结合在线学习与强化学习技术，实现阈值随业务负载与环境变化的实时调整。

更新于 2025-11-05杭州