荣耀大模型强化学习算法高级工程师
校招全职研发类地点:上海状态:招聘
任职要求
1、计算机科学、机器学习、统计学、应用数学等相关领域专业; 2、具备扎实的机器学习基础、编码能力,能够熟练掌握最新论文和技术,并熟练使用PyTorch框架进行编程; 3、具备创造性思维,能够将全新想法转化为工程应用,对研究工作充满热情,具备良好的团队合作精神和沟通能力; 4、对强化学习、人工智能和大模型技术有强烈的兴趣和热情,愿意不断学习和探索新技术; 加…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、研究大语言模型及多模态大模型的SFT和RLHF后训练方法,旨在提升大模型在相关端侧业务上的基础能力,紧跟业界大模型的技术发展; 2、探索大模型的agent应用能力,包括但不限于ReAct、Reflexion、AutoGPT、MetaGPT等LLMagent应用框架,以及强化学习智能体的规划和端到端训练方法; 3、研究用户个性化大模型的强化学习训练和应用能力,提升端侧用户体验; 4、撰写技术报告和论文,积极参与公司内外部的技术交流与合作,推动团队在大模型技术水平和业务落地能力上的提升,增强团队在行业内的影响力和知名度。
包括英文材料
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
强化学习+
https://cloud.google.com/discover/what-is-reinforcement-learning?hl=en
Reinforcement learning (RL) is a type of machine learning where an "agent" learns optimal behavior through interaction with its environment.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
This course will teach you about Deep Reinforcement Learning from beginner to expert. It’s completely free and open-source!
https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
Build your own video game bots, using classic and cutting-edge algorithms.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
还有更多 •••
相关职位
社招5年以上核心本地商业-美
技术研发与创新 主导 Agentic RL 系统的架构设计和前沿算法研发 将学术前沿(NeurIPS、ICLR 等会议技术方案)快速转化为美团特有的业务价值 针对本地生活场景,设计突破性的奖励函数和学习机制 建立 Agent 系统的 Scaling Law,指导大规模部署的技术路线 项目驱动与落地 推动 Agent RL 系统从研究到生产环节,确保算法的稳定性、可靠性和效率 与产品、工程团队深度合作,将研究成果转化为实际业务收益 团队领导与人才培养 组建和领导一支在 RL 和 Agent 领域的高水平研究团队 制定团队的技术战略和发展规划 指导团队成员的学术输出和技术成长 培养团队的工程实践能力,建立高效的算法开发和迭代流程
更新于 2025-11-24北京
社招3年以上技术类-算法
高德研发效能团队聚焦研发智能化方向,利用大模型技术革新研发交付模式,支撑业务高速发展。主要包括大模型技术在 项目管理、需求理解、代码开发和测试、智能回归、业务评测等研发效能领域的落地,以及大模型强化学习方向的前沿技术探索。
更新于 2025-10-22北京
社招研发类
1、负责机械臂和灵巧手的模仿学习+强化学习相关算法的开发与落地,如物品抓取、铰链物体操作、可变形物体操作、掌内操作等; 2、跟踪国内外具身操作的最新进展,能够快速理解新工作并能够提出创新性观点,完成实验验证; 3、和大模型相结合,利用语言交互以及视觉,触觉等多模态信息实现在不同应用场景下的功能泛化和长序列动作;
更新于 2025-10-20北京|上海|深圳