logo of leyuansu

乐元素【2026校招】强化学习算法工程师(北京)

校招全职地点:北京状态:招聘

任职要求


1、26届计算机、数学、自动化等相关专业硕博毕业,有游戏AI相关工作经验;
2、有模仿学习、多智能体学习、分布式强化学习等工作或研究经验;
3、熟悉常用数据结构算法,熟练使用 Python 等编程语言;
4、熟练使用 TensorFlow/PyTorch 等至少一种深度学习框架;
5、热爱游戏行业,对游戏设计和玩家行为有一定的理解。

工作职责


1、负责强化学习相关技术在休闲游戏中自动打关及关卡难度调节的落地应用;
2、参与强化学习算法实现及框架搭建,探索强化学习在游戏生命周期各个阶段的应用方向;
3、参与深度学习基础平台的功能选代,持续研发算法与优化性能;
4、跟踪分析工业界及学术界相关方向最新进展。
包括英文材料
智能体+
强化学习+
数据结构+
算法+
Python+
TensorFlow+
PyTorch+
深度学习+
相关职位

logo of horizon
校招算法序列

探索下一代端到端自动驾驶系统的强化学习训练范式,构建高效稳定的大规模强化学习闭环训练框架,提升强化学习的数据效率、训练效率、稳定性、场景泛化性,验证scalling law,解决sim2real和长尾问题,推动强化学习算法在物理世界的落地应用。

更新于 2025-07-04
logo of horizon
校招算法序列

智能驾驶系统产品线大规控部门负责城区、高速、停车场等全场景高阶辅助驾驶系统的规控和预测算法开发,同时搭建完善的仿真评测体系提升研发质量和效率。 开发理念: 打破惯性思维,根据问题本质寻找答案和设计解决方案; 不技术自嗨,守住性能底线后再做技术创新,用实车效果说话; 用数据驱动的思维做开发,做好数据闭环,注重评测迭代; 不做简单的规则堆叠,传统方法要提炼简洁优雅的“解析解”; 重视工具开发,提升研发效率,打开算法黑盒,尽量做解释性强的方案。 精益求精,打磨产品细节,做出亮点,提升产品体验。 1. 负责轨迹预测、行为决策、路径规划和运动控制等算法开发,并完成嵌入式量产平台部署; 2. 基于海量数据进行道路参与者行为预测算法研发,设计高性能、高准召、高稳定的预测模块; 3. 开发交互式决策和预测模型,改善自动驾驶车辆在复杂环境中的应对能力; 4. 负责自动驾驶系统产品级仿真引擎的架构设计,仿真平台自动化测试及可视化工具链的构建; 5. 构建可扩展的云端仿真框架,以在集群环境中运行批量仿真模拟,减少云端部署和运行成本; 6. 构建完善仿真场景库替代大部分路测,同时生成挑战性的场景增广路测能力; 7. 建立数据自动标注、难例批量挖掘和分析机制工具链,通过数据闭环持续提升算法能力。

更新于 2025-07-04
logo of xiaohongshu
校招策略算法

1、负责智能客服相关算法优化工作,包括意图理解、改写、召回、精排、回复生成等,面向不同的客服场景进行模型微调、蒸馏、强化学习; 2、从需求分析到模型部署全流程负责,包括数据清洗、Prompt工程、模型训练、AB测试及线上服务优化,推动算法方案客服场景的应用落地; 3、跟踪大模型领域的最新技术研究进展,如MOE、Agent框架、推理加速、思维链(CoT)、多模态对话等,探索Agent化智能客服等创新方向。

更新于 2025-09-15
logo of xiaohongshu
校招策略算法

小红书广告以 “社区+搜索”双引擎为核心,以真实体验触发用户信任,为客户打造深度触达高价值用户的营销闭环。广告算法团队致力于研发全球领先的在线广告算法,不断建设和升级“社区+搜索”双引擎驱动下的小红书广告技术体系,创造健康和互利的广告生态,引领行业创新性解决方案,助力客户实现 “心智占领-销售转化”双效增长,推动行业变革。 1、参与小红书广告全场景、全链路优化,包括召回/粗排/精排/混排/相关性各模块的整体优化,构建业界领先的下一代广告投放系统; 2、模型算法:负责搜推召回、粗排、精排等模块的CTR、CVR、LTR等模型优化工作,使用DIN、SIM、Transformer、Scaling、LRM等技术极致的提升模型效果,提升小红书广告收入; 3、出价算法:负责出价优化工作,包括转化出价、ROI出价、UBX自动化高维组合出价等相关产品的出价优化工作,使用PID等控制学理论、监督学习、强化学习等技术提升出价效果,提升小红书广告收入; 4、自动化算法:负责自动化投放优化工作,包括自动化新建计划、自动化关停计划、素材创意自动化生产&组合等工作,使用增益建模、监督学习、强化学习、AIGC等技术提升自动化投放效果,提升小红书广告收入; 5、投放策略:负责投放策略相关工作,包括DPA投放、用户体验、大促策略、新客户策略等优化工作,需要深入理解业务,配合产品设计线上策略,优化客户投广效果和体验。

更新于 2025-09-08