logo of liauto

理想汽车【基座模型】强化学习技术专家

社招全职智能与信息技术地点:北京状态:招聘

任职要求


1.计算机、数学、机器学习等相关专业硕士及以上学历,具备良好的数学基础;
2.全面掌握深度学习常用的理论和方法,具备千卡级别集群部署以及成功交付经验更佳;
3.熟练使用PyTorch等主流深度学习框架,具备一线大厂或头部AI创业公司成功交付经验。在强化学习领域,有解决实际问题的调优经验,NLP领域或大模型RLHF/RLAIF等经验优先;
4.优秀的科研能力,有顶会论文发表这更佳。

工作职责


1.负责大语言模型强化学习算法的研究探索与开发工作,包括但不限于完善和优化RLHF/RLAIF算法,基于RLHF/RLAIF等方法提升模型性能;
2.探索和追踪业界强化学习的前沿算法及技术,并在大模型场景应用,不断提升大模型能力;
包括英文材料
机器学习+
学历+
深度学习+
PyTorch+
强化学习+
NLP+
大模型+
相关职位

logo of liauto
校招算法

1. 负责记忆智能体算法研发创新及落地,基于世界模型+强化学习技术,实现从专家经验到Agent端到端自主学习的技术演

logo of antgroup
社招5年以上技术类-开发

1. 面向大模型、具身智能、AI眼镜等场景,建设AI安全的测评与防御平台,科学评估AI安全水位,并为高并发业务大模型服务场景提供低打扰防御能力。 2. 深入了解大模型在业务应用中的安全问题,对智能体服务的的工具、知识、大模型应用提供系统性安全解决方案,解决AI与硬件结合的应用安全问题,在人与AI交互的过程中守护AI应用安全底线。 3. 通过语料去毒、再训练、强化学习等手段持续将大模型应用的安全政策与基座模型对齐。 4.不断探索技术新领域,推动技术能力的沉淀和技术氛围的建设。

更新于 2025-06-10
logo of liauto
社招智能与信息技术

1. 负责大语言模型以及多模态大模型的预训练、精调等研发及落地; 2. 负责大模型智能体记忆、规划、工具、RAG能力的研发以及大模型应用的研发。 3. 跟进大模型与强化学习技术的前沿发展,提升算法效率与性能

logo of meituan
校招核心本地商业-基

数据与训练方向: 1.大模型数据体系建设:构建多语言和多模态的数据处理流程和实验链路,优化数据的筛选与配比策略,探索动态数据调整、多阶段训练和课程学习等方法提升数据质量和多样性,优化大模型的训练效果。 2.合成数据探索:探索大规模合成数据方法,应用于复杂任务、推理、代码和多模态等场景。制定合成数据在预训练、强化学习等不同训练阶段的应用策略,并深入研究数据扩展规模定律、数据多样性和模型坍塌等基础问题,推动数据驱动的性能突破。 3.多模态学习与推理:探索多模态预训练的新范式,突破模态融合瓶颈。具体包括实现多模态能力的早期融合、理解与生成的统一建模,研究多模态扩展定律以指导数据与训练方案,扩展超长上下文机制以支持全模态场景等。同时,面向复杂的多模态推理与交互场景,探索多模态强化学习、多模态奖励模型、推理阶段扩展(test-time scaling)以及全模态链式思维(CoT)等方法,提升模型处理复杂任务和全模态交互的能力。 4.高效模型架构设计:设计高效的大模型架构以提升训练和推理效率。探索 MoE(混合专家)、稀疏注意力、线性注意力等高效模型结构,以及模型编辑与合并等技术,研发能够显著提升推理速度和资源利用率的新型模型架构。 5.推理效率与性能优化:推动算法与系统的协同优化,实现模型性能与效率的最大化平衡。基于对硬件计算潜力的深度挖掘,开发高效的模型推理方案和算法,包括模型压缩、剪枝、量化、稀疏化等,降低模型应用部署成本。 后训练方向: 1.后训练数据与流程建设,从指令数据生产、合成、进化、配比等方面提升数据质量,优化指令微调、强化学习、奖励模型等训练pipeline,提升模型综合能力; 2.后训练关键能力建设,包括但不限于优化模型创意生成、多语言、逻辑推理、复杂指令遵循、代码生成、工具调用等能力,提升模型可控性和安全性,拓展模型能力边界; 3.面向准确性、多模信息、最优路径等方向,探索奖励模型的新范式,构建统一模型学习环境,实现模型的价值对齐和能力对齐; 4.面向推理规划能力、多智能体系统、模型自进化等方向,探索下一代强化学习算法,持续提升大模型的智能水平和在真实复杂场景效果; 5.前沿探索:动态推理计算优化(Test-time Compute Optimization)、多智能体协同进化架构 、大规模强化学习系统优化等。

更新于 2025-05-23