小鹏汽车强化学习分布式系统实习生

实习兼职2025-10-15地点：上海 | 深圳状态：招聘

扫码手机上打开

任职要求

职位要求：
1. 硕士及以上学历，具有机器人、运动控制、自动化、人工智能、计算机等相关背景。
2. 需有1年以上强化学习（RL）相关产品落地实务经验。
3. 扎实的强化学习理论基础，熟悉主流离线/在线RL算法(e.g. PPO, SAC, etc)，并具备实际项目应用经验。
4. 精通至少一个主流RL框架，如 Ray-RLlib (精通Ray 加分), rsl_rl, stable-basel…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 与电动车动力系统团队深度合作，设计并实现适用于车载动力系统效率优化的强化学习（RL）算法。
2. 利用或基于 Ray-RLlib, rsl_rl, 或 stable-baselines3 等主流框架，搭建高效、分布式的RL训练与部署架构。
3. 推动RL控制策略的sim2real 迁移，并参与小鹏汽车动力系统硬件在环或实车平台的集成与调试工作。
4. 作为AI团队与动力系统部门之间的核心桥梁，负责需求对齐、数据接口规范化和联合调试。
5. 根据业务需求，未来有机会参与 LLM团队针对语言模型后训练RL 框架的搭建与优化。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

强化学习+

算法+

Ray+

还有更多 •••

登录查看完整学习资料

相关职位

电商短视频推荐算法专家

社招1-3年J0011

1、参与亿级用户规模的电商推荐优化，提升内容电商观看时长、点击率、转化率、GMV、LTV等核心指标； 2、参与机器学习、深度学习领域的核心研发工作，包括但不限于神经网络模型的设计与优化、迁移学习、强化学习、对比学习等的算法和系统研发； 3、针对海量用户行为数据，提供分布式算法实现的解决方案，大幅提升算法计算规模和性能； 4、参与推荐机制的顶层设计，优化电商流量结构和GMV结构，促进电商生态的健康发展。

更新于 2026-03-31北京

【Ace顶尖实习生】面向多Agent架构的分布式强化学习训练技术研究

校招机器学习平台

本课题的研究目标是针对多Agent协同场景构建基于课程学习与分层强化学习的RL框架，从优先级经验回放(PER)、分布式经验复用和Actor-Critic异步计算优化等角度，攻克多目标冲突下的样本利用率低效问题。该技术旨在突破传统RL训练在复杂任务（如小红书社区点点RL训练任务）中收敛慢、资源消耗高的瓶颈，实现训练效率提升3倍以上，支撑Agent服务快速迭代上线需求。

更新于 2025-11-21北京|上海|杭州

AIGC算法工程师-广告业务-筋斗云人才计划（北京/上海/深圳）

社招A259978A

团队介绍：广告业务原为商业产品与技术部门，为抖音集团的商业变现提供广告产品与技术，负责端到端大型广告系统建设，覆盖抖音、今日头条、西瓜视频、番茄小说、穿山甲等产品矩阵，践行"激发生意新可能"理念，致力于让营销更省心、更高效、更美好，推动商业的可持续增长，让不分体量、地域的企业及个体，都能通过数字化技术激发创造、驱动生意。连接广告主、用户及生态伙伴、成为开放共赢的全球最佳智能营销平台之一。在这里，你将投身建设面向未来的数字营销能力，接触到全球先进的商业产品架构、模型和算法，在互联网广告行业始终创新。课题介绍： 1、核心技术架构： 1）下一代广告技术栈：模型算法层：搭建基于强化学习的智能出价与流量预估系统，攻克深层转化场景下的数据稀疏、多源异构数据融合（延迟数据/埋点噪声/跨平台行为）等行业难题；系统工程层：构建支持基于长序列特征的实时预估框架，研发支持动态创意组合的自动化投放引擎； AIGC融合层：建立文/图/视频多模态生成技术中台，实现从IP素材生成到智能投放的全链路闭环； 2）行业首创的AIGC解决方案：正在搭建全球领先的"小说→漫剧"智能生产线，攻克三大技术堡垒：多模态叙事引擎：研发支持角色一致性保持（Character-aware Diffusion）、分镜自动生成（Storyboard LLM）、动态运镜控制（Camera ControlNet）的复合型生成框架；工业化工作流：构建支持分布式渲染、多版本AB测试、合规性审核的智能生产管线，实现日均千级素材产能；投放增效系统：开发生成质量量化评估模型（QAGAN），建立素材生成-投放效果的反哺优化机制； 2、岗位挑战：你将主导：构建支持沿模型的混合推理框架，优化多卡并行下的生成效率；设计跨模态对齐算法，提升文字指令到视觉元素的可控生成精度；研发基于用户行为分析的智能素材变异系统，实现CTR提升30%+的个性化内容生成；打造从内容生产到实时竞价的全自动化广告引擎； 3、我们期待这样的开拓者：精通Diffusion Models技术栈，具有LoRA/ControlNet/T2I-Adapter等微调框架的实战调优经验；熟悉多模态大模型（如VideoPoet、Sora等视频生成技术原理），具备跨模态表征学习研究背景；拥有广告算法背景者优先，熟悉CVR预估、智能出价等核心模块与生成式AI的结合点；出色的工程化能力，主导过至少一个完整AIGC项目的端到端落地（从模型训练到服务部署）。

更新于 2025-05-28北京

广告算法实习生-【商业化算法部】

实习D10187

1、参与快手商业化系统核心模型、机制、策略算法的研究及开发工作； 2、针对每天数亿网民 & 亿级广告库，参与研发业界领先的超大规模深度学习推荐模型，通过输入端、判别层、输出端建模优化，更精准地实现千人千面，包括但不限于 Meta learning、图学习、多模态建模、对比学习等前沿技术研究； 3、参与研发业界领先的广告智能投放平台，通过应用运筹优化、强化学习、联邦学习、CV & NLP（视频理解、生成）等前沿技术，提升广告主投放的长短期收益； 4、针对每天百亿流量 & 数十种差异化场景，参与设计、实现创新的拍卖机制和分配算法，运用博弈论、计算经济学、Uplift 建模 / 因果推断，参数模型化等技术和理论，探索给定资源约束下最大化流量和生态长短期价值的最佳机制策略实践。

更新于 2025-10-17北京