阿里巴巴阿里国际站/Alibaba.com-RL强化学习算法工程师-Accio-杭州
任职要求
1. 计算机、人工智能或数学相关专业硕士及以上,有扎实的计算机知识和NLP功底 2. 熟悉LLaMA/Qwen/DeepSeek-R1等LLM训练方式;熟悉PPO/GRPO/RFT/Self-Play等强化学习算法原理 3. 掌握LLM post-training训练数据构建方法,以及常见 Multi-Agent系统框架 4. 加分项: 有顶会paper/开源项目;有Agent项目成功落地经验;有LLM+强化学习成功落地经验
工作职责
我们是阿里巴巴国际数字商业集团-阿里巴巴国际站-Accio算法团队。阿里巴巴国际站是全球最大的跨境B2B数字化贸易平台。 1. 负责电商搜索场景的Agentic Pro Search/Deep Research等能力的开发实现,负责跨境电商垂直多语言多模态大模型的研发,包括SFT到Agent Reinforcement Learning的LLM全链路post-training技术建设。 2. 负责AI Native专项能力建设,包括但不限于 Agentic Reasoning, Agentic RAG System, Multi-Agent System等。 3. 负责跨境电商AI创新业务落地,包括但不限于用最前沿的Reasoning/Agentic RAG技术,重构B2BSourcing的全新交互体验。 4. 负责LLM的前沿技术探索,持续迭代自研模型能力,支撑AI Native产品落地。
我们是阿里巴巴国际数字商业集团-阿里巴巴国际站-Accio算法团队。阿里巴巴国际站是全球最大的跨境B2B数字化贸易平台。 1. 深入探索 LLM 在电商搜索场景中的推理能力与深度研究(Deep Research)模式,优化信息整合与总结效果,打造高效、精准的智能搜索产品,推动 AI 技术在实际应用中的突破; 2. 负责 Accio Agent研发,打造下一代B端采购全新交互体验: a. 设计并实现基于 Reasoning LLM 的 Research Agent,提升搜索结果的理解、推理与结构化总结能力; b. 探索LLM Reasoning技术(如思维链、多步推理),优化复杂查询的Deep Research模式,实现长文本理解与跨文档信息融合; c. 优化网页搜索和自有品商搜索的RAG系统 3. 模型优化: a. 基于蒸馏和RL技术进行Post-training,训练融合CoT和CoA的Agent原生模型,使得模型具备多步推理能力和多步工具调用的能力 b. 探索多模态信息(文本、图像、结构化数据)融合的搜索与生成技术 c. 探索电商场景下Reward模型的定义和构建
1、研究并应用强化学习(RL)技术在游戏场景中的创新应用,如 NPC 行为学习、自适应游戏策略、自动化测试等; 2、负责开发基于 RL 的智能体决策、路径规划、多智能体协作等算法; 3、结合 LLM、计算机视觉等技术,提升游戏 AI 的决策能力和可玩性; 4、负责强化学习模型的训练、优化和部署,提升游戏 AI 的自主学习能力; 5、跟踪强化学习在游戏领域的最新研究,并结合游戏项目进行创新探索; 6、 持续改进算法和框架,开发和完善通用框架和SDK工具,提升游戏AI开发效率。
1. 负责强化学习算法的研究、开发和应用,解决AI搜索等实际问题并提升业务效果。 2. 设计、实现、优化强化学习模型,包括但不限于价值迭代、策略梯度、模型预测控制等算法。 3. 跟踪强化学习领域的前沿研究进展,不断探索和创新,推动强化技术发展。 4. 与LLM的模型后训练相结合,迭代RL训练技术并实现业务模型的调优和落地。