饿了么算法工程师-强化学习
校招全职饿了么秋季2026届应届生招聘地点:杭州状态:招聘
任职要求
1、计算机科学、数学、统计学、自动化等相关专业优先。 2、熟悉Post-Training流程及其在各大公司中的不同应用方式(如Qwen K1.5, DeepSeek-R1等)。 3、深入了解RL领域,包括但不限于RM、PPO、DPO、ORPO、GRPO、MBRL、DDPG、DDQN等算法。 4、精通LLM&NLP领域,涵盖LLM训练(CPT、SFT)、文本分类、信息抽取、搜索算法等。 5、具备扎实的机器学习、深度学习与自然语言处理理论基础,熟悉主流预训练模型如BERT、Transformer、ViT、CLIP等。 6、精通Python开发,具备丰富的算法实现经验,熟练使用PyTorch等深度学习框架进行模型训练与部署。 7、出色的逻辑思维与问题解决能力,能够快速分析并解决复杂的技术难题。强烈的自驱力与业务导向,能够在快节奏环境中高效完成任务并达成业务目标。 【加分项】 1、在Kaggle、天池等平台获得Top10%成绩者优先考虑。 2、有GitHub开源项目贡献经历,且项目星级≥50。 3、在ACL、EMNLP、NAACL、ICLR、NeurIPS等相关顶会发表过论文者优先。 4、已具备LLM&RL开发和实际落地经验,对深度学习框架内部架构有深入理解。 5、对AI技术充满热情,具有强烈的好奇心与钻研精神,在细分领域算法中有独特见解。"
工作职责
我们正在构建一个创新的数据分析诊断模型,旨在通过强化学习(RL)与大语言模型(LLM)技术的结合,为商家提供智能化的店铺运营支持。该模型将帮助商家提高运营效率和服务质量,实现数据驱动的决策优化。 培养方向: 1、参与系统的需求分析、架构设计与开发工作,确保算法模型的高效落地与业务目标的达成。 2、结合大语言模型(LLM)与强化学习(RL)技术,设计并实现智能化的文本生成模型,助力商家运营效率和服务质量的全面提升。 3、持续关注并研究强化学习领域的前沿技术动态,探索新方法与新思路,推动技术创新在实际业务中的落地应用。
包括英文材料
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
SFT+
https://cameronrwolfe.substack.com/p/understanding-and-using-supervised
Understanding how SFT works from the idea to a working implementation...
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
BERT+
https://www.youtube.com/watch?v=xI0HHN5XKDo
Understand the BERT Transformer in and out.
Transformer+
https://huggingface.co/learn/llm-course/en/chapter1/4
Breaking down how Large Language Models work, visualizing how data flows through.
https://poloclub.github.io/transformer-explainer/
An interactive visualization tool showing you how transformer models work in large language models (LLM) like GPT.
https://www.youtube.com/watch?v=wjZofJX0v4M
Breaking down how Large Language Models work, visualizing how data flows through.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
Kaggle+
[英文] Kaggle Learn
https://www.kaggle.com/learn
Gain the skills you need to do independent data science projects.
GitHub+
[英文] GitHub Learn
https://learn.github.com/
Discover a wide range of beginner-friendly tutorials, hands-on learning, and expert-led lessons.
ICLR+
https://iclr.cc/
NeurIPS+
https://neurips.cc/
ACL+
https://www.aclweb.org/portal/
Computational linguistics is the scientific study of language from a computational perspective.
EMNLP+
相关职位
校招智能信息秋季20
1. 开展大语言模型、多模态生成/理解大模型复杂推理能力、可信性研究和奖励模型,包括但不限于自然语言处理、视觉理解、多模态生成与理解等; 2. 开展多模态大模型后训练阶段的强化学习算法研发迭代,包括:基于人类、AI、环境反馈的强化学习算法的优化升级,覆盖规则遵循、复杂推理等多个任务的多目标强化学习训练算法研发和调优,设计并实施实验; 3. 关注和学习最新前沿研究,参与学术讨论和技术交流,撰写研究报告、技术文档或论文,鼓励在国际顶级期刊或会议上发表研究成果。
更新于 2025-08-13
社招3年以上腾讯广告技术
1.多目标强化学习算法开发与调优。基于业务场景构建DQN、PPO、SAC等算法的改进框架,针对延迟奖励稀疏性设计分层强化学习架构。搭建离线仿真环境与在线AB测试闭环,设计动态滑动窗口评估机制,量化算法迭代效果; 2.效果瓶颈分析与突破。构建强化学习可解释性分析工具(如SHAP值、注意力热力图),定位状态表征缺失/奖励函数偏差/探索不足等瓶颈。设计课程学习机制,通过渐进式难度提升策略解决稀疏奖励场景下的策略退化问题; 3.状态与奖励机制创新。构建异构特征融合模型,集成用户实时行为序列(LSTM)、跨场景偏好迁移(Meta Learning)等高阶状态表征。设计复合奖励函数,融合稠密奖励(点击行为)与稀疏奖励(购买行为),引入基于KL散度的奖励塑形技术; 4.跟踪深度学习、计算广告、推荐系统,deepseek等最新前沿技术,应用到多目标排序。
更新于 2025-09-26