蚂蚁金服蚂蚁集团-强化学习框架研发工程师-北京/杭州
任职要求
1. 精通 Python 编程语言,具有良好的代码设计品味,理解并能灵活运用继承、组合、Mixin、依赖注入等编程范式,具备利用AI快速迭代、编写高质量、可维护代码的能力; 2. 具有大模型强化学习框架(如 AReaL、veRL 等)的上手修改经验,或有热门 GitHub 开源项目代码贡献和活跃社区参与经验者优先; 3…
工作职责
负责 AReaL 开源框架的开发、迭代和生态建设,以及内部 AReaL-ASystem 框架的优化与部署。 1. 开源框架开发与维护:在 GitHub 上参与 AReaL 开源版本的迭代,编写清晰的文档和示例代码,响应社区问题和贡献; 2. 应用场景扩展:支持更多强化学习应用场景,包括SWE Agent、GUI Agent、多智能体协作等; 3. 推进融合开源软件生态:进一步集成开源工具和模型库(如 Amem,Awex,AEnvironment等),保持与社区前沿技术的同步; 4. 系统性能优化:针对大模型强化学习训练和推理场景,进行端到端性能分析和优化,包括分布式训练加速、显存优化、通信效率提升等,满足大规模 Agent 训练的性能要求。
1、设计和实现基于LLM的智能体架构,包括任务规划、对话管理、意图识别、流程工程等; 2、设计和实现多模态Agent,支持文本、语音、图像等多种输入/输出形式的处理; 3、推动AI Agent在架构和性能上的持续优化,提升Agent对用户理解能力和响应的准确性; 4、开发和维护智能体的后端服务,确保系统的稳定性和可扩展性; 5、跟踪并研究行业前沿AI算法,持续提升AI Agent的技术水平; 6、编写必要的技术文档,包括API接口说明、核心算法设计与代码开发。
团队主要负责蚂蚁集团大语言模型的语料优化,涵盖数据扩源、数据质量提升、合成语料、数据利用方式优化、数学/代码/推理/对话能力提升等多个方向。我们致力于通过数据驱动的方式打造业界一流的语言基座模型。 1. 负责大语言模型各阶段训练语料的优化工作,包括预训练、后训练、强化学习训练阶段,具体的工作包括体系化地扩展各类型的数据、定义并迭代优化数据质量、建设高效的合成语料技术、优化高质量数据筛选策略、优化数据配比及训练策略等。 2. 负责端到端地优化基座模型的各项关键能力,包括数学、代码、推理、对话等能力,具体工作包括扩展各能力相关的语料、定义并迭代优化数据质量、针对性地合成相关语料、优化高质量数据筛选策略、优化各阶段数据配比及训练策略、优化评测方式等。 3. 负责研发语料优化相关的基础设施,包括研发高效的数据处理算子及链路、构建数据标签体系及标注模型、探索数据与模型效果的关系、设计数据效果评估机制等。 4. 跟踪和研究大模型领域的前沿技术方向,包括但不限于语料优化、预训练和后训练算法、知识增强、数据合成等,推动技术创新并应用到基座模型训练中。
1. 参与研发多模态模型等下一代人工智能核心技术; 2. 关注和推进技术在业务场景中的广泛应用,包括但不限于语言、音乐、语音、音频的生成与理解等; 3. 深入调研和关注音频/NLP/多模态等方向的前沿技术。