logo of eleme

饿了么算法工程师-强化学习

校招全职饿了么秋季2026届应届生招聘地点:杭州状态:招聘

任职要求


1、计算机科学、数学、统计学、自动化等相关专业优先。
2、熟悉Post-Training流程及其在各大公司中的不同应用方式(如Qwen K1.5, DeepSeek-R1等)。
3、深入了解RL领域,包括但不限于RM、PPO、DPO、ORPO、GRPO、MBRL、DDPG、DDQN等算法。
4、精通LLM&NLP领域,涵盖LLM训练(CPT、SFT)、文本分类、信息抽取、搜索算法等。
5、具备扎实的机器学习深度学习自然语言处理理论基础,熟悉主流预训练模型如BERTTransformer、ViT、CLIP等。
6、精通Python开发,具备丰富的算法实现经验,熟练使用PyTorch深度学习框架进行模型训练与部署。
7、出色的逻辑思维与问题解决能力,能够快速分析并解决复杂的技术难题。强烈的自驱力与业务导向,能够在快节奏环境中高效完成任务并达成业务目标。

【加分项】
1、在Kaggle、天池等平台获得Top10%成绩者优先考虑。
2、有GitHub开源项目贡献经历,且项目星级≥50。
3、在ACLEMNLP、NAACL、ICLRNeurIPS等相关顶会发表过论文者优先。
4、已具备LLM&RL开发和实际落地经验,对深度学习框架内部架构有深入理解。
5、对AI技术充满热情,具有强烈的好奇心与钻研精神,在细分领域算法中有独特见解。"

工作职责


我们正在构建一个创新的数据分析诊断模型,旨在通过强化学习(RL)与大语言模型(LLM)技术的结合,为商家提供智能化的店铺运营支持。该模型将帮助商家提高运营效率和服务质量,实现数据驱动的决策优化。
培养方向:
1、参与系统的需求分析、架构设计与开发工作,确保算法模型的高效落地与业务目标的达成。
2、结合大语言模型(LLM)与强化学习(RL)技术,设计并实现智能化的文本生成模型,助力商家运营效率和服务质量的全面提升。
3、持续关注并研究强化学习领域的前沿技术动态,探索新方法与新思路,推动技术创新在实际业务中的落地应用。
包括英文材料
算法+
大模型+
NLP+
SFT+
机器学习+
深度学习+
BERT+
Transformer+
Python+
PyTorch+
Kaggle+
GitHub+
NeurIPS+
ACL+
EMNLP+
相关职位

logo of quark
校招智能信息秋季20

1. 开展大语言模型、多模态生成/理解大模型复杂推理能力、可信性研究和奖励模型,包括但不限于自然语言处理、视觉理解、多模态生成与理解等; 2. 开展多模态大模型后训练阶段的强化学习算法研发迭代,包括:基于人类、AI、环境反馈的强化学习算法的优化升级,覆盖规则遵循、复杂推理等多个任务的多目标强化学习训练算法研发和调优,设计并实施实验; 3. 关注和学习最新前沿研究,参与学术讨论和技术交流,撰写研究报告、技术文档或论文,鼓励在国际顶级期刊或会议上发表研究成果。

更新于 2025-08-13
logo of tcl
校招研发技术类

1. 负责家电产品AI相关算法功能开发; 2. 负责深度学习、强化学习等神经网络或LLM模型的设计、训练改善工作,提升产品实际功能及创造价值。

更新于 2025-09-19
logo of tencent
社招3年以上腾讯广告技术

1.多目标强化学习算法开发与调优。基于业务场景构建DQN、PPO、SAC等算法的改进框架,针对延迟奖励稀疏性设计分层强化学习架构。搭建离线仿真环境与在线AB测试闭环,设计动态滑动窗口评估机制,量化算法迭代效果; 2.效果瓶颈分析与突破。构建强化学习可解释性分析工具(如SHAP值、注意力热力图),定位状态表征缺失/奖励函数偏差/探索不足等瓶颈。设计课程学习机制,通过渐进式难度提升策略解决稀疏奖励场景下的策略退化问题; 3.状态与奖励机制创新。构建异构特征融合模型,集成用户实时行为序列(LSTM)、跨场景偏好迁移(Meta Learning)等高阶状态表征。设计复合奖励函数,融合稠密奖励(点击行为)与稀疏奖励(购买行为),引入基于KL散度的奖励塑形技术; 4.跟踪深度学习、计算广告、推荐系统,deepseek等最新前沿技术,应用到多目标排序。

更新于 2025-09-26
logo of netease
社招网易游戏(互娱)

- 参与强化学习、模仿学习、进化算法的落地工作,包括但不限于智能体、平衡性测试等; - 基于强化学习、模仿学习等AI技术为游戏产品打造更强力、更多样、更拟人的AI机器人; - 参与开发强化学习训练和部署平台。

更新于 2025-06-05