荣耀大模型强化学习算法高级工程师

校招全职研发类2025-08-07地点：上海状态：招聘

扫码手机上打开

任职要求

1、计算机科学、机器学习、统计学、应用数学等相关领域专业；
2、具备扎实的机器学习基础、编码能力，能够熟练掌握最新论文和技术，并熟练使用PyTorch框架进行编程；
3、具备创造性思维，能够将全新想法转化为工程应用，对研究工作充满热情，具备良好的团队合作精神和沟通能力；
4、对强化学习、人工智能和大模型技术有强烈的兴趣和热情，愿意不断学习和探索新技术；
加…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、研究大语言模型及多模态大模型的SFT和RLHF后训练方法，旨在提升大模型在相关端侧业务上的基础能力，紧跟业界大模型的技术发展；
2、探索大模型的agent应用能力，包括但不限于ReAct、Reflexion、AutoGPT、MetaGPT等LLMagent应用框架，以及强化学习智能体的规划和端到端训练方法；
3、研究用户个性化大模型的强化学习训练和应用能力，提升端侧用户体验；
4、撰写技术报告和论文，积极参与公司内外部的技术交流与合作，推动团队在大模型技术水平和业务落地能力上的提升，增强团队在行业内的影响力和知名度。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

PyTorch+

强化学习+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

大模型强化学习算法高级工程师

社招5年以上核心本地商业-美

技术研发与创新主导 Agentic RL 系统的架构设计和前沿算法研发将学术前沿（NeurIPS、ICLR 等会议技术方案）快速转化为美团特有的业务价值针对本地生活场景，设计突破性的奖励函数和学习机制建立 Agent 系统的 Scaling Law，指导大规模部署的技术路线项目驱动与落地推动 Agent RL 系统从研究到生产环节，确保算法的稳定性、可靠性和效率与产品、工程团队深度合作，将研究成果转化为实际业务收益团队领导与人才培养组建和领导一支在 RL 和 Agent 领域的高水平研究团队制定团队的技术战略和发展规划指导团队成员的学术输出和技术成长培养团队的工程实践能力，建立高效的算法开发和迭代流程

更新于 2025-11-24北京

高德-大模型算法高级工程师/专家-研发效能团队

社招3年以上技术类-算法

高德研发效能团队聚焦研发智能化方向，利用大模型技术革新研发交付模式，支撑业务高速发展。主要包括大模型技术在项目管理、需求理解、代码开发和测试、智能回归、业务评测等研发效能领域的落地，以及大模型强化学习方向的前沿技术探索。

更新于 2025-10-22北京

算法高级工程师（大模型）

社招3年以上计算机网络技术类

1. 负责智能投顾、智能保顾、健康管理服务等领域的算法设计与实现，推动大模型、强化学习等技术在金融和健康场景中的落地应用。设计并优化智能服务算法，提升模型在复杂场景中的准确性和鲁棒性。 2. 负责大模型（如LLM、GPT系列）的微调和优化，使其适应智能投顾、智能保顾、健康管理等场景的需求。探索大模型在多模态交互、个性化服务推荐、风险评估等场景中的应用。 3. 研究和实现强化学习算法，设计智能决策系统，提升智能服务的智能化水平。在投资策略生成、保险推荐、健康管理等场景中，设计基于强化学习的解决方案。 4.负责Agentic（智能体）开发，设计具备自主决策能力的智能服务系统。 5.探索Agentic在智能投顾、智能保顾、健康管理中的应用场景，提升服务的智能化和个性化水平。 6.关注前沿技术（如多模态模型、知识图谱、生成式AI等），探索其在智能服务中的应用潜力。结合业务需求，设计创新性技术方案，提升产品竞争力。

更新于 2026-02-03深圳

机器人VLA操作算法高级工程师

社招研发类

1、负责机械臂和灵巧手的模仿学习+强化学习相关算法的开发与落地，如物品抓取、铰链物体操作、可变形物体操作、掌内操作等； 2、跟踪国内外具身操作的最新进展，能够快速理解新工作并能够提出创新性观点，完成实验验证； 3、和大模型相结合，利用语言交互以及视觉，触觉等多模态信息实现在不同应用场景下的功能泛化和长序列动作；

更新于 2025-10-20北京|上海|深圳