logo of tongyi

通义研究型实习生 - 下一代大模型评测方法与系统

实习兼职通义研究型实习生地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 本科及以上学历,计算机、人工智能、软件工程、数学、自动化等相关专业优先;
2. 理论基础: 深入理解 Transformer 架构及大语言模型基础知识,熟悉模型评测方案(Evaluation)或具有后训练(Post-training,如 SFTRLHF、DPO 等)经验;
3. 具备卓越的代码工程能力,精通…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


随着大模型技术迅猛发展,模型迭代速度远超传统评测体系更新。当前行业面临核心痛点:复杂任务与长尾场景缺乏有效评估标准,主观指标难以量化,人工评测成本高、效率低。现有系统难以支撑大规模模型集成与快速实验,制约了模型在真实业务中的落地。本项目旨在构建下一代评测体系,解决评估滞后与对齐难题,确保模型能力可测、可控、可用,为业务场景提供坚实技术底座,推动 AI 从“可用”向“好用”跨越,满足产业界对高质量模型的迫切需求。

1. 深度挖掘大模型在复杂任务、长尾场景中的弱点,设计并构建具有可扩展性的自动化评测方案及高质量数据集;
2. 参与 LLM-as-a-Judge 方案的设计与实现,训练高精度的 Reward Model(奖励模型),建模人类偏好,提升模型在指令遵循、创造性等主观评价上的表现;
3. 设计高效的 Reward Signal(奖励信号)并合成对应数据,通过强化学习(RL)算法持续提升模型的能力上限与泛化性;
4. 参与开发 Evaluation 与 Reward System 所需的工程框架,简化多任务测试流程,提升大规模模型集成与实验的效率;
5. 跟踪全球大模型最新进展(如 Agent 评测、多模态对齐、自动化数据合成等),推动研究成果在真实业务场景中的落地。
包括英文材料
学历+
Transformer+
SFT+
RLHF+
Python+
PyTorch+
深度学习+
还有更多 •••
相关职位

logo of amap
实习高德研究型实习生

团队介绍: 高德语音技术部,是负责高德全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。近期部分技术(https://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg) 具体职责: 1. 协助语音大模型的数据构建,搭建高效高质的语音数据生产Pipeline 和数据标准,优化Pipeline算子,用高质量数据提升技术预研和业务落地的效果; 2. 参与语音大模型的端到端评测,搭建科学敏捷的评测Pipeline和评测标准,用全面真实的评测推动模型效果优化提升; 3. 深度理解对话交互、音视频创作的技术和产品趋势,设计与业务目标贴合的数据与评测方案;与团队协同,积极探索自动化数据生产/模型评估、数据合成等方法,提高数据标注/评测效率;

更新于 2025-12-09北京
logo of tongyi
实习通义研究型实习生

我们正在寻找对通用具身智能前沿研究充满热情的实习生,参与构建下一代多任务、多场景统一的具身基础大模型。本项目聚焦三大核心挑战:跨任务泛化的通用能力建模、仿真到现实(Sim2Real)的迁移鸿沟弥合、以及大规模高质量具身交互数据的自动化构建与评测。 你将深度参与以下关键方向: 1. 研发支持视觉-语言-动作(VLA)统一建模的具身基础大模型,实现零样本/少样本下的跨任务感知、理解与决策; 2. 构建高保真机器人仿真平台与世界模型(World Modeling)渲染系统,提升仿真环境的真实性与动态交互能力,缩小 Sim2Real 差距; 3. 构建大规模具身交互数据集,融合真实采集与基于世界模型的自动化生成,并配套建立标准化、可扩展的自动化评测体系; 4. 设计轻量化推理算法与部署框架,将大模型高效运行于真实机器人硬件(如 Franka、UR、Stretch 等),完成闭环验证与迭代优化。 优秀成果可形成专利/论文,或发布开源社区

更新于 2025-12-11北京|杭州
logo of tongyi
实习通义研究型实习生

超大规模图计算在大数据场景中发挥着越来越重要的作用。图计算的经典问题如可达性、社区检测、链路预测和模式匹配等已经在搜索推荐、金融风控等场景的实践中被验证效果显著;同时,图计算也越来越作为下一代机器学习和推荐系统的基础,成为GNN/GCN端到端解决方案的重要一环。然而,图计算在大规模应用的过程中,还有很多未决问题。如何复用已有的诸多图算法来处理超大规模图数据?如何兼顾超大规模环境下图计算的性能和用户易用性?图计算如何与TensorFlow/pyTorch等机器学习平台共同工作来完成一个端到端分析型计算?这一系列问题都十分具有挑战。 本项目包含以下研究方向: - 针对现有超大规模图计算系统中存在的海量规模计算和需要持久化存储的问题,需要设计和实现高效的存储结构和缓存机制; - 针对现有一站式图系统中存在的多范式计算问题,需要在新设计的高效存储结构中均衡在TP和AP场景下的性能表现; - 针对现实场景中图数据的高频动态变化,新设计的高效存储和缓存需要满足动态图变化的需求,并让系统具有优秀的弹性性能。

更新于 2024-11-14北京|上海
logo of aliyun
实习阿里云研究型实习

ChatGPT的推出推动了AI大模型的商业应用。AI大模型以其庞大的规模和复杂的结构,在处理大规模数据时表现优异。这些模型需要大量训练数据和计算能力,拥有巨量参数,如GPT-3的1750亿参数,需要3000亿个Token训练,需用数千GPU进行分布式训练,这对计算、网络、存储等方面提出了新的挑战。 Meta数据显示,AI流量有三个特点: 低熵大象流:流量大且少,静态路由可能导致不均,增加网络拥塞。 冲激型流量:训练中需在短时间传输大量数据,要求网络处理能力强。 异构网络:有芯片间专用连接和GPU-Direct RDMA两种通信方式,要求应用感知底层设计传输,以避免性能下降。 为了解决这些挑战,本研究计划研究该课题,以期在学术研究领域取得突破,并对云网络架构设计提供有效的反馈。这将有助于推动AI大模型的发展和应用,为商业市场带来更多的创新和机遇。

更新于 2024-12-12杭州