小鹏汽车强化学习算法工程师
社招全职地点:深圳 | 上海状态:招聘
任职要求
1. 硕士及以上学历,专业包括机器学习、人工智能、计算机科学、信息/多媒体检索、强化学习、数学等; 2. 具备Python、C++、Java或其他相关语言的开发经验; 3. 熟悉PyTorch、TensorFlow等深度学习框架; 加分项: 1. 具备超越简单模拟器的强化学习应用经验(如实际场景部署); 2. 擅长通过定量方法解决分析性问题; 3. 具有处理和分析多源、高复杂度、高维度数据的经验; 4. 有基于机器学习、强化学习或深度学习的系统开发经验; 5. 在学术或工业界取得显著成果的证明(如科研基金、奖学金、专利,或在NeurIPS、ICLR、AAAI、RecSys、KDD、IJCAI、CVPR、ECCV、ACL、NAACL、EACL、ICASSP等顶级会议/期刊以第一作者发表论文); 6. 通过实习、工作经验、编程竞赛或开源项目展示研究能力与工程实践能力; 7. 具备团队协作与跨职能沟通经验; 8. 善于解决复杂问题,能权衡不同解决方案的优劣与视角,制定推进路径。
工作职责
1. 开展机器学习和强化学习领域的科学研究,推动技术进步; 2. 开发更优的数据驱动人类行为建模方法; 3. 与研究人员及跨职能团队合作,沟通研究计划、进展与成果; 4. 应用前沿强化学习技术,推动生成式人工智能(GenAI)和具身智能应用落地。 5. 参与学术论文发表及开源项目贡献。
包括英文材料
学历+
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
强化学习+
https://cloud.google.com/discover/what-is-reinforcement-learning?hl=en
Reinforcement learning (RL) is a type of machine learning where an "agent" learns optimal behavior through interaction with its environment.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
This course will teach you about Deep Reinforcement Learning from beginner to expert. It’s completely free and open-source!
https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
Build your own video game bots, using classic and cutting-edge algorithms.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
TensorFlow+
https://www.youtube.com/watch?v=tpCFfeUEGs8
Ready to learn the fundamentals of TensorFlow and deep learning with Python? Well, you’ve come to the right place.
https://www.youtube.com/watch?v=ZUKz4125WNI
This part continues right where part one left off so get that Google Colab window open and get ready to write plenty more TensorFlow code.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
NeurIPS+
https://neurips.cc/
ICLR+
https://iclr.cc/
RecSys+
[英文] Recommender Systems
https://recsys.acm.org/
This site contains information about the ACM Recommender Systems community, the annual ACM RecSys conferences, and more.
CVPR+
https://cvpr.thecvf.com/
ECCV+
https://eccv.ecva.net/
ECCV is the official event under the European Computer Vision Association and is biannual on even numbered years.
相关职位
社招1年以上网易伏羲
1、对接游戏项目需求,负责技术方案的设计和实现,不断迭代和优化项目效果; 2、持续改进算法和框架,开发和完善通用框架和SDK工具,提升游戏AI开发效率。
更新于 2025-06-16
社招核心本地商业-业
1. 负责强化学习算法的研究、开发和应用,解决AI搜索等实际问题并提升业务效果。 2. 设计、实现、优化强化学习模型,包括但不限于价值迭代、策略梯度、模型预测控制等算法。 3. 跟踪强化学习领域的前沿研究进展,不断探索和创新,推动强化技术发展。 4. 与LLM的模型后训练相结合,迭代RL训练技术并实现业务模型的调优和落地。
更新于 2025-04-22
社招A30179A
1、负责强化学习算法的开发和应用,用于机器人的精细操作或者全身运动控制,提升动作的自然度和鲁棒性; 2、完成控制策略在真机上的测试验证,重点解决部署过程中遇到的sim2real gap问题; 3、持续跟踪国内外前沿研究成果,并进行相关算法复现。
更新于 2025-05-06
社招A76234
1、深入研究和应用COT及强化学习技术,建立针对电商大模型推理优化体系,使模型在处理电商复杂问题的准确率显著提升,显著增强模型的动态推理和反思能力,确保模型能够快速、准确地应对电商业务的高复杂度和多变性需求; 2、研发的电商推理优化大模型支持核心电商业务场景(如审核、商品推荐),降低人工审核成本,提升电商业务的智能化水平和运营效率; 3、研究大模型驱动的智能体算法,包括但是不局限于ReACT、Voyager、WebGPT、AutoGPT; 4、撰写技术报告和论文,分享研究成果,参与内外部的技术交流和合作,推动团队技术水平的提升,提高团队在行业内的影响力。
更新于 2025-03-20