logo of tongyi

通义研究型实习生 - 大模型强化学习 (LLM-RL) 基础研究与系统建设

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1. 计算机相关专业的优秀学生,具备扎实的理论功底和实践能力。
2. 对AI/ML/LLM/RL领域有充分的研究热情,具备良好的研究品…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. LLM-RL前沿探索与基础研究:深入研究泛化性/样本效率/持续学习/元学习/测试时扩展等课题,负责理论分析、算法/基准测试/实验的设计与实现。
2. 引领学术与技术前沿,形成高水平论文/技术报告/开源项目。
包括英文材料
大模型+
相关职位

logo of tongyi
实习通义研究型实习生

随着大语言模型(LLM)在自然语言处理中的推理能力不断提升,越来越多的研究开始关注其在代码领域的应用。本项目聚焦于提升大语言模型在代码生成、代码修复以及代码推理等方面的表现。为了进一步优化模型的性能,本项目将采用强化学习(RL)技术,通过自我反馈和动态调整来提高模型在复杂代码任务中的理解与生成能力。 我们专注于解决以下关键技术问题: 1. 面向代码的推理数据构建:我们将开发面向代码合成的数据集,设计代码推理链,并探索可扩展的监督学习方法,为强化学习模型提供高质量的输入数据。 2. 面向代码的强化学习策略:我们将设计更高效的训练算法,并探索强化学习在人类反馈(RLHF)和人工智能反馈(RLAIF)领域的应用,以优化模型在代码生成与修复任务中的表现。

更新于 2024-10-14北京|杭州
logo of tongyi
实习通义研究型实习生

背景:大语言模型(LLM)评测是LLM开发和应用中的关键环节。基于模型的自动评测技术,面向复杂任务,例如知识推理(Knowledge Reasoning)、多轮会话(Multi-tern Dialogue)、文本生成(Text generation)等,具有独特的优势,逐渐成为学术界和工业界关注的热点。 涵盖技术点包括: 1. 基于裁判员模型的自动评测技术(Model-based Automatic Evaluation for LLM),涉及LLM/RL相关模型的算法设计、训练、推理等内容 2. 基于模型的自动评测框架设计,裁判员模型在不同任务和细分领域的性能优化

更新于 2024-11-14杭州
logo of aliyun
实习阿里云研究型实习

专注于大模型后训练,包括蒸馏+SFT/RL等相关技术,目标提升LLMs/LMMs的综合效果以及垂直场景效果,同时降低模型尺寸以减少部署成本,具体职责包括: 1、深入探索LLM蒸馏技术,对大模型进行极致的轻量化,同时尽可能减少模型的综合性能/垂直领域性能损失; 2、从数据合成、蒸馏算法等方面,提出创新优化技术,减少蒸馏带来的灾难性知识遗忘问题; 3、提出强化学习等创新方法,提升蒸馏后小模型解决复杂问题的能力,探索面向不同的复杂度任务自动调整推理模型思考长度的技术; 4、结合阿里云PAI平台产品服务,提供可靠高效的蒸馏+RL训练工具; 5、基于蒸馏+RL等后训练技术,面向Agent等LLM重点应用场景,构建业界领先的效果优化解决方案。

更新于 2025-10-11北京|杭州
logo of amap
实习高德研究型实习生

【高德交通智能部】寻找AI造梦师!加入极客天团,用代码重塑未来出行 ▍团队故事: 我们是高德地图的的硬核极客天团,过去四年连续解锁交通科技树: ✓ 2021年 全球首个分钟级交通事件检测引擎(让堵车预警快过刷朋友圈) ✓ 2022年 红绿灯倒计时黑科技(拯救千万路怒症的神级操作) ✓ 2023年 V2X车车对话系统(让汽车学会"社牛"沟通) ✓ 2024年 AI领航红绿灯(比驾校教练更懂路的老司机) ✓ 2025年 TrafficVLM 上线(高德地图“天眼”功能) 现在,我们正在构建智能交通宇宙,等你来编写核心算法剧本! 岗位职责: 1. 构建下一代TrafficVLM:运用SFT和强化学习技术打造能理解复杂交通场景的多模态大模型 2. 设计创新的思维链(COT)框架:解决交通流量预测、事故处理等复杂推理任务 3. 建立行业领先的评估体系:开发针对交通场景的大模型专项评估指标和测试平台 4. 探索RL与LLM的融合应用:通过强化学习持续优化模型在动态交通环境中的表现 💡 我们期待你: • 对AI技术充满热情,渴望将实验室技术转化为实际生产力 • 在大模型某个技术方向(SFT/RL/Agent/COT等)有深入理解或实践经验 • 喜欢解决开放性问题,能够独立思考和探索创新方案 • 具备优秀的工程实现能力或扎实的理论研究基础

更新于 2025-10-23北京