乐元素【2026校招】强化学习算法工程师(北京)
任职要求
1、26届计算机、数学、自动化等相关专业硕博毕业,有游戏AI相关工作经验; 2、有模仿学习、多智能体学习、分布式强化学习等工作或研究经验; 3、熟悉常用数据结构及算法,…
工作职责
1、负责强化学习相关技术在休闲游戏中自动打关及关卡难度调节的落地应用; 2、参与强化学习算法实现及框架搭建,探索强化学习在游戏生命周期各个阶段的应用方向; 3、参与深度学习基础平台的功能选代,持续研发算法与优化性能; 4、跟踪分析工业界及学术界相关方向最新进展。

探索下一代端到端自动驾驶系统的强化学习训练范式,构建高效稳定的大规模强化学习闭环训练框架,提升强化学习的数据效率、训练效率、稳定性、场景泛化性,验证scalling law,解决sim2real和长尾问题,推动强化学习算法在物理世界的落地应用。

智能驾驶系统产品线大规控部门负责城区、高速、停车场等全场景高阶辅助驾驶系统的规控和预测算法开发,同时搭建完善的仿真评测体系提升研发质量和效率。 开发理念: 打破惯性思维,根据问题本质寻找答案和设计解决方案; 不技术自嗨,守住性能底线后再做技术创新,用实车效果说话; 用数据驱动的思维做开发,做好数据闭环,注重评测迭代; 不做简单的规则堆叠,传统方法要提炼简洁优雅的“解析解”; 重视工具开发,提升研发效率,打开算法黑盒,尽量做解释性强的方案。 精益求精,打磨产品细节,做出亮点,提升产品体验。 1. 负责轨迹预测、行为决策、路径规划和运动控制等算法开发,并完成嵌入式量产平台部署; 2. 基于海量数据进行道路参与者行为预测算法研发,设计高性能、高准召、高稳定的预测模块; 3. 开发交互式决策和预测模型,改善自动驾驶车辆在复杂环境中的应对能力; 4. 负责自动驾驶系统产品级仿真引擎的架构设计,仿真平台自动化测试及可视化工具链的构建; 5. 构建可扩展的云端仿真框架,以在集群环境中运行批量仿真模拟,减少云端部署和运行成本; 6. 构建完善仿真场景库替代大部分路测,同时生成挑战性的场景增广路测能力; 7. 建立数据自动标注、难例批量挖掘和分析机制工具链,通过数据闭环持续提升算法能力。
1、跟踪大语言模型、多模态、强化学习等算法的最前沿进展,将相应技术赋能到机器翻译、多语言理解等小红书国际化实际的业务场景中; 2、结合业务场景,探索大语言模型、多模态模型、扩散模型等在搜广推场景的落地方案,提升海外多语言用户的搜索和推荐基础体验; 3、基于成熟的AI平台服务,构建AI搜索、素材智能创作等完善的AI原生应用和X+AI应用,打造具有核心用户价值的热点应用。
1、负责优化小红书的多模态内容理解大模型算法,利用LLM、VLLM、Embedding、CV以及NLP相关能力,解决社区/大商业中笔记、评论、账号等多体裁的审核问题;优化小红书综合机审大模型; 2、负责包括但不限于预训练、SFT、RL、多模态表征、Agent搭建、AutoPE、RAG等,持续优化并时刻保持技术先进性,将业界SOTA模型落地并改进以获取审核业务线上收益; 3、紧密关注相关领域业界的最新进展,通过LLM/MLLM不断优化生态业务的机审能力,提高机审风险覆盖度和风险召回能力。建立并优化生态场景下的内容理解特征体系; 4、跟踪大语言模型、多模态、强化学习等算法的最前沿进展,探索其在小红书审核业务中的落地方案。