京东多智能体联合训练与协同推理探索
任职要求
1、 获得本科及以上学历,计算机、人工智能、自动化等相关专业; 2、 具备深厚的数学与算法功底,精通LLM预训练或后训练流程,深刻理解多智能体系统(MAS)或强化学习(RL)的基本原理; 3、 具备优秀的工程代码实现能力,熟练掌握PyTorch、DeepSpeed或Megatron-LM等…
工作职责
1、 设计并实现面向电商复杂业务场景的高可用、高扩展性多智能体协作系统,支持复杂业务链路下的任务协同与决策优化; 2、 构建基于大语言模型的智能体协作框架,优化智能体在动态环境中的任务规划(Planning)、工具调用(Tool Use)与跨智能体协作能力,提升相关实际业务指标; 3、 探索多智能体任务分解与协同执行机制,实现复杂业务流程的智能化自动编排与闭环执行; 4、 探索并实现基于LLM的多智能体联合训练框架,研究如何通过Proposer-Solver-Judge(提案-求解-评判)等博弈机制实现智能体能力的闭环自增; 5、 针对多体环境下的非稳态(Non-stationarity)挑战设计鲁棒的联合训练机制,优化信用分配(Credit Assignment)策略,精准量化各智能体在长路径决策中的贡献度; 6、 探索多模态信息(文本、代码、结构化数据)融合的统一表示与生成技术,提升模型对异构信息的理解与操作精度; 7、 通过指令微调(SFT)与偏好对齐(RLHF/DPO),优化模型在电商垂域的知识与价值观对齐,构建场景感知的智能体“大脑”。
1. 基座模型能力建设 • 主导代码大模型(Code LLM)的预训练与优化,涵盖代码生成、补全、理解、翻译、调试等核心能力; • 设计高效的多语言代码表征架构(如Python、Java、C++等),支持长上下文学习(Long Context)与复杂逻辑推理; • 探索代码语料(GitHub、Stack Overflow等)与自然语言的高效对齐技术,提升模型对开发者意图的理解能力。 2. Agent协同与系统化落地 • 构建代码智能体(Code Agent)协作框架,整合代码解释器、测试框架、知识检索模块,实现多工具联合推理; • 开发动态任务调度策略,支持多智能体分工解决复杂编程问题(如系统设计、全栈开发、自动化测试); • 推动模型在类似Cursor的代码工具中落地,实现代码生成、智能补全、错误诊断、跨语言迁移等核心功能。 3. 多智能体代码系统 • 设计多智能体协同架构,支持代码生成、评审、迭代优化的闭环流程; • 探索智能体自主协作机制(如分工协商、结果校验、知识共享),提升复杂工程问题的解决效率; • 结合业务场景(如企业级代码库重构、自动化运维),打造端到端代码解决方案。
基础算法研究 一、推理思考 1.开发链式思考、思维树等推理增强技术,优化模型对复杂业务逻辑推理、策略规划等任务的深度理解。 2.探索通过大规模强化学习持续提升模型推理能力。 3. 构建业务逻辑推理评测基准,推动模型思维链的可解释性研究。 二、多模态端到端 1.研发语音-文本跨模态对齐与联合表示学习算法,解决语义鸿沟问题,提升模型对语音指令理解、语音到文本生成的鲁棒性。 2.探索语音交互场景下的多模态增强技术(如语音情感分析、端到端语音对话生成),推动模型在智能客服、语音助手的应用落地。 三、生活服务领域增强 1.大模型基座知识能力增强,打造生活服务领域基座,赋能美团各类大模型应用场景; 2.探索预训练增强阶段的大规模高质量数据自动合成、Scaling Law、长链条复杂推理反思能力增强; 3.建设生活服务chat模型与智能体,通过强化学习等方式增强模型推理反思、复杂指令遵循、高情商交互等能力。 应用算法研究 一、深度推理、规划与决策能力强化 1.优化大模型在逻辑推理、多步规划、复杂决策、多轮多步工具调用等任务上的表现,探索如RL scaling、Test-time scaling等前沿技术。 2.构建能够处理模糊与不完全信息、进行自主假设与验证的推理框架。赋能大模型实现精准的工具调用与智能体协同。 二、高度拟人化交互与专业沟通能力构建 1.赋予模型深度理解与分析专业领域问题的能力,包括隐性需求挖掘和复杂语境下的语义理解。 2.探索多轮对话中的上下文记忆、情绪感知、共情表达与高情商交互技巧,实现稳定人设、知识遵循与高度自然的对话风格。 3.研究模型主动感知用户全面信息、进行预判性服务与信息推送的策略,而非被动响应,打造能真正吸引用户持续对话的自主交互。 三、多智能体协作研发范式与前沿技术应用 1.设计和研究多智能体间的动态协调、知识/记忆共享与冲突解决机制,实现“1+1>>2”的协同效应。 2.推动面向智能体的大模型研发新范式,探索大模型智能体在环境感知、记忆与知识库管理、复杂指令遵循等基础能力的统一建模与提升路径。 四、BA Agent 核心能力构建 1.定义并主导包括自助取数、多维分析、归因洞察、智能可视化等关键模块的技术路径。 2.研究和改进现有的强化学习算法,实现端到端Agent性能优化,提升Agent鲁棒性与泛化能力。 3.构建面向领域任务的DeepResearch能力,提升Agent在多步骤信息检索、工具调用、推理规划等任务中的表现。
团队介绍:国际电商是以TikTok为载体的电商业务(也称为TikTok Shop),致力于成为用户发现并获取优价好物的首选平台,在直播电商、视频内容电商、货架电商等多场景下,国际电商希望能为用户提供更个性化、更主动、更高效的消费体验,为商家提供稳定可靠的平台服务,致力于新奇好物畅销全球,美好生活触手可得的使命。 Data-电商团队是国际电商的核心算法技术力量,专注于电商领域的算法创新,帮助用户高效发现感兴趣的商品,保障用户的购物安全,提升交易各环节的智能化水平。在这里,你将与一流的产品和技术团队合作、钻研,一起应对技术和业务上的挑战,推动技术在电商场景的深度落地。 课题介绍: 国际电商生态中沉淀了用户行为、商品图文、多媒体内容、商品销量与物流时序等海量异构数据,但传统模型在长周期预测、跨模态理解及复杂决策推理上仍存在明显瓶颈。 本课题拟以大模型为基础,联合构建面向国际电商场景的基础大模型,将用户、商品、内容、物流与库存等关键信息统一建模,并在其之上设计可插拔的Agent框架,系统整合任务规划、工具调用、多轮交互与环境感知等能力,从而在需求预测、流量分发与个性化推荐等链路中实现端到端的智能决策。 课题挑战: 1、异构融合与对齐:统一建模用户行为序列、商品销量时序信号与多模态商品内容,完成高维时序与图文表征的深度语义对齐; 2、推荐大模型与世界模型协同:把推荐问题定义还原为用户推荐列表的生成问题,基于大模型的技术完成端到端推荐建模; 3、推荐物品的Tokenizor:如何把亿级别的物品进行多模态和特征语义编码,支撑后续训练和生成任务,处理几十TB级别的用户行为Tokens的预训练,通过模型结构和训练方式拉高Scaling Law曲线,把各类推荐任务重构为后训练任务,以RLVR的思路进行推荐任务建模,最大化GMV和体验价值,训练推理优化,基于SGLang 等大模型推理套件定制构建高性能的推荐服务; 4、电商多模态大模型:构建面向电商领域的多语言多模态大模型,在核心电商场景达到SOTA性能,并以此为基础打造电商智能体基座,广泛支撑各类电商场景下的Agent应用落地; 5、Agent评测与安全合规:构建贴合实际业务的Agent评测指标与基准,保障在强约束、强对抗环境下的稳定性、安全性与合规性。 课题价值: 1、技术价值:打造通用多模态基座,以模型、数据、算力迭代实现幂律增长,夯实规模化技术底座; 2、业务价值:搭建国际电商大模型底座,以生成式推荐、时序大模型、Agent等驱动GMV与留存,打造高杠杆营收引擎。
团队介绍:国际电商是以TikTok为载体的电商业务(也称为TikTok Shop),致力于成为用户发现并获取优价好物的首选平台,在直播电商、视频内容电商、货架电商等多场景下,国际电商希望能为用户提供更个性化、更主动、更高效的消费体验,为商家提供稳定可靠的平台服务,致力于新奇好物畅销全球,美好生活触手可得的使命。 Data-电商团队是国际电商的核心算法技术力量,专注于电商领域的算法创新,帮助用户高效发现感兴趣的商品,保障用户的购物安全,提升交易各环节的智能化水平。在这里,你将与一流的产品和技术团队合作、钻研,一起应对技术和业务上的挑战,推动技术在电商场景的深度落地。 课题介绍: 国际电商生态中沉淀了用户行为、商品图文、多媒体内容、商品销量与物流时序等海量异构数据,但传统模型在长周期预测、跨模态理解及复杂决策推理上仍存在明显瓶颈。 本课题拟以大模型为基础,联合构建面向国际电商场景的基础大模型,将用户、商品、内容、物流与库存等关键信息统一建模,并在其之上设计可插拔的Agent框架,系统整合任务规划、工具调用、多轮交互与环境感知等能力,从而在需求预测、流量分发与个性化推荐等链路中实现端到端的智能决策。 课题挑战: 1、异构融合与对齐:统一建模用户行为序列、商品销量时序信号与多模态商品内容,完成高维时序与图文表征的深度语义对齐; 2、推荐大模型与世界模型协同:把推荐问题定义还原为用户推荐列表的生成问题,基于大模型的技术完成端到端推荐建模; 3、推荐物品的Tokenizor:如何把亿级别的物品进行多模态和特征语义编码,支撑后续训练和生成任务,处理几十TB级别的用户行为Tokens的预训练,通过模型结构和训练方式拉高Scaling Law曲线,把各类推荐任务重构为后训练任务,以RLVR的思路进行推荐任务建模,最大化GMV和体验价值,训练推理优化,基于SGLang 等大模型推理套件定制构建高性能的推荐服务; 4、电商多模态大模型:构建面向电商领域的多语言多模态大模型,在核心电商场景达到SOTA性能,并以此为基础打造电商智能体基座,广泛支撑各类电商场景下的Agent应用落地; 5、Agent评测与安全合规:构建贴合实际业务的Agent评测指标与基准,保障在强约束、强对抗环境下的稳定性、安全性与合规性。 课题价值: 1、技术价值:打造通用多模态基座,以模型、数据、算力迭代实现幂律增长,夯实规模化技术底座; 2、业务价值:搭建国际电商大模型底座,以生成式推荐、时序大模型、Agent等驱动GMV与留存,打造高杠杆营收引擎。