小鹏汽车【25届校招】RLHF强化学习算法工程师
任职要求
1. 具备扎实的机器学习基础和强悍的编码能力,能熟练使用 PyTorch; 2. 3年左右工作经验,在大模型训练和强化学习至少一个方向上有经验; 3. 对人工智能和大模型技术有强烈的兴趣和热情,愿意不断学习和探索新技术。 加分项: 1. 有 ICML、ICLR、NeurIPS、ACL、CVPR 等顶级学术会议发表过有影响力研究成果的优先; 2. 在 ACM/ICPC、NOI/IOI、Kaggle 等编程/AI 比赛获奖者优先; 3. 主导、参与过 AI 相关的有大影响力的开源/闭源项目的优先。
工作职责
我们致力于推动强化学习(Reinforcement Learning, RL)在人形机器人运动控制、大语言模型推理优化、和具身智能体(Embodied AI) 领域的突破性应用。现招募具备深厚RL技术背景的算法工程师,参与从算法设计、仿真训练到真实场景部署的全链路研发,探索AI与物理世界的深度融合。 1. 研究大语言模型RLHF阶段的广义强化算法,提升大模型的能力,探索大模型的自我进化之路; 2. 研究大模型驱动的智能体算法,包括但是不局限于ReACT、Voyager、WebGPT、AutoGPT; 3. 撰写技术报告和论文,分享研究成果,参与内外部的技术交流和合作,推动团队技术水平的提升,提高团队在行业内的影响力。
T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 你的挑战: 攻克LLM全链路训练难题:主导大模型训练,优化模型Scaling Law,结合应用需求突破分布式性能瓶颈,基于RL增强模型推理能力,打造电商领域最懂用户需求的超级大脑(含多模态VLM研发)。 为什么选择淘天? 1.坐拥电商领域最大规模场景:每天处理数亿次用户交互,覆盖搜索/推荐/广告/客服/营销全链路,你将直接面对全球最复杂的电商需求场景。 2.定义未来购物标准:你研发的模型将服务数亿消费者,结合大语言和多模态模型能力满足用户偏好,影响海量商家经营决策。 3.顶级科研配置:超大规模GPU集群支持大规模参数模型训练,自研分布式框架实现训练推理效率大幅提升,顶级会议发表,前沿技术成果即时输血。 加入我们,你将获得: 1.与NLP/多模态领域顶尖团队共创,解锁大模型在商品理解、智能创作、消费决策、购物对话等场景的无限可能。 2.弹性化的技术路线选择权,既可在大模型基础技术方面突破能力上限,也可深入应用层打造现象级AI产品。 3.打通产学研用全链路:支持技术成果转化顶会论文和专利+百万级ai native用户产品。 T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ꔷ 投递T-Star实习生,提前解锁淘天顶级技术岗位,实习与T-Star正式批/应届秋招投递不冲突。拿到T-Star意向书的同时,将获得直通正式批次终面的机会;参与T-Star实习且表现优秀的同学,提供T-Star转正Offer。
职位描述 1. 搭建高效的AI系统,为算法迭代和部署提供模型优化、量化、部署的高效算法工具链; 2. 使用模型优化技术,包括模型低精度量化、模型压缩/裁剪,熟悉大模型的量化、长上下文推理优化等,开发模型优化的工具链,对模型进行优化加速; 3. 参与软硬件协同优化设计。与硬件工程师协作,参与硬件设计和优化,提供模型在私有硬件平台的执行效率。
1. NPU Firmware/运行时库开发与交付; 2. NPU Firmware指令集设计与开发; 3. 参与硅前验证case开发,支持各种仿真平台算子与整网联调; 4. 参与硅后NPU Bringup; 5. 支持大模型在NPU芯片上量产部署。