logo of alibaba

阿里巴巴研究型实习生-强化学习算法和大模型训推架构结合下的强化学习框架加速

实习兼职阿里巴巴研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1、精通C/C++JavaPython等至少一门编程语言,了解至少一种主流机器学习建模框架;
2、对于机器学习和数学有较强的理解能力,有机器学习领域经验(计算机视觉、语音、NLP、推荐系统)优先;
3、热衷于数据结构和算法、在ACM大赛成绩优异者优先;
4、有实际成果并发表在国际顶级会议、期刊者优先;
5、熟悉异构计算和高性能计算,有GPU、端侧等…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


结合强化学习算法以及大模型训推架构,对强化学习框架进行优化,提升大模型强化学习训练的效率。持续探索RL的前沿方向,实现丰富、便捷的真实环境交互能力。通过冗余生成、投机采样等生成加速技术,动态调度计算资源,协同异构硬件基础设施,极致压缩RL训练的时间消耗。从PPO、GRPO扩展出更丰富的RL算法范式,提升大模型在长思考、复杂推理方面的能力,推进大模型在国内最大的电商场景的业务落地。

职位职责包括但不限于:
1.  设计和实现机器学习系统所需要的大规模分布式计算系统,参与机器学习全生命周期(训练、推理、MLOps、CI/CD、AB testing)组件的开发与优化。
2.  构建业界领先的超大规模稀疏训练引擎,通过软硬件协同以及工程算法联合优化,持续榨取高性能异构硬件的性能潜力,不断推高分布式训练的性能天花板。
3.  构建业界先进的多模态、大语言训练引擎,通过持续的分布式训练优化,不断提升算法的训练规模,提升硬件的使用效率。
4.  构建超大规模全流程机器学习平台,覆盖从特征工程、样本构建到模型量化交付,并通过构建SQL计算引擎、分布式特征服务、样本湖等,提升特征样本计算存储效率。
5.  图学习、联邦学习、强化学习等多个AI方向算法工程解决方案的探索和落地。
6.  在机器学习系统的前沿领域(如分布式训练、软硬协同设计等)参与应用驱动的研究。
包括英文材料
C+
C+++
Java+
Python+
机器学习+
还有更多 •••