美团大模型算法实习生(深度推理强化、基座增强、智能体应用方向)
任职要求
1. 熟悉大模型的原理,具备数据处理、精调、预训练、强化等方面的经验; 2. 熟悉自然语言处理常见算法与模型,具备深度学习技术在NLP领域的应用实践; 3. 具备良好的编程实现能力,熟悉C++、Python、Java等常用编程语言中至少一种; 4. 具备强烈的进取心、求知欲及团…
工作职责
1. 基座增强:探索大模型垂直领域知识高效增强方法,包括数据策略、训练策略以及scaling law友好的训练方法,打造适配实际应用所需的基座能力; 2. 多模态端到端:实现语音与文本模态的深度融合与统一建模,打造高效、轻量的端到端多模态系统,从而有助于更全面、多维度地理解语音与文本,提供更强的智能以及更智能的交互模式; 3. 深度推理:突破大模型在复杂逻辑推理、因果推断、多步决策、沟通技巧等大模型基础通用能力,提升模型解决开放式问题的能力; 4. 结合大模型,研发对话交互场景的大模型Agent,支持智能客服、销售、数据分析、C端助理等项目,通过预训练、微调、强化学习等全链路的技术实践,实现类人的理解和执行能力,提升美团服务能力和效率; 5. 不断探索技术新领域,推动技术能力的沉淀和技术氛围的建设。
团队介绍:Data-电商-平台治理算法团队,通过优化算法,和业务团队协作,对字节旗下的电商产品进行全方位的质量和生态的治理,既包括风险、违规和低质问题的打击,也包括健康电商生态的建设和优化,在最大程度的优化平台治理的效果的同时提升治理的工作效率,降低成本。另外一方面,平台治理算法团队致力于攻坚前沿的AI技术,以技术驱动推动业务的变革和发展,领域涉及广泛,包括但不限于NLP/CV/多模态/大模型/图算法/序列算法等。 课题介绍: 背景:电商智能审核业务比较复杂,随着审核技术的不断演进,各个领域面临着新的风险问题和对抗形式,这对大模型的应用提出了新的挑战。例如,在电商审核业务中,涉及审核PBR变更、长文本、长时序、多语言、少样本和AIGC生成对抗等问题时,现有的开源大模型表现往往不尽人意。因此,针对这些挑战,我们亟需研发专门针对电商智能审核的大模型,以提升其在电商治理中的有效性和适应性。特别的,针对电商业务特点,我们需要探索高质量的数据自动生成、高效的MOE Embedding、Auto-Prompt生成、高质量 COT输出、大模型知识蒸馏等。此外,该模型应能够满足电商审核业务的需求,实现高准确率的自主决策和可解释性的COT生成,显著减少误判。针对动态变化的审核PBR变更,它能够通过RAG模块自动检索类似的审核案例,将复杂的审核PBR分解为简单的原子任务,自动拆分出驳回和豁免原子任务,并自动调用相应的Tools来解决这些任务,从而建立“知道拒绝并且知道为何拒绝”的业内领先智能审核系统。最终,大模型智能审核系统的审核效果需要接近或者超过人工审核,往全机审的路线上演进。 研究方向:模态融合能力:提升文本、音频、图像、视频和直播等多模态的细粒度理解能力,实现高准确率的自主决策和可解释性的COT生成;Few-Shot能力:探索电商多语言、长时序和少样本问题,增强Few-Shot和Zero-Shot能力,针对多变的业务规则具备复杂指令和Auto-Prompt生成能力;攻防对抗能力:研究AIGC图像视频的判别,增强审核大模型对隐晦、抽象的生成式内容的攻防对抗能力;Agent能力:具备调用RAG模块,使用Tools,和Auto-planning能力;提升大模型的动态推理和反思能力。 1、深入理解电商治理业务,探索基于大模型、多模态模型,持续提升商家/达人在准入、发品、售后等各个业务场景的风险识别效果; 2、提升商品治理审核智能化水平,迭代优化治理大模型,提升大模型对治理规则和商品信息的理解,实现高准高召的问题识别和自动处置; 3、负责强化电商治理场景下,大模型推理和反思能力,通过商品业务域SFT、高质量Cot、强化学习、数据合成等技术方案,提升商品治理大模型底座能力; 4、参与构建挖掘电商直播、商品、商家和带货主播等多种实体的数据,对大规模网络/海量特征序列进行建模,支撑商家、达人分类/风险团伙挖掘等业务场景解决问题,并为商家/达人治理提供支持; 5、参与构建大规模的图存储和图学习平台,完善电商社区内商家/商品/达人/视频内容的关系建设,构建电商实体通用表征能力,赋能治理业务; 6、建设售后服务MLLM基座大模型,并利用RAG/Agent/RL等技术,解决复杂场景下对体验问题的理解能力。
团队介绍:Data-电商-平台治理算法团队,通过优化算法,和业务团队协作,对字节旗下的电商产品进行全方位的质量和生态的治理,既包括风险、违规和低质问题的打击,也包括健康电商生态的建设和优化,在最大程度的优化平台治理的效果的同时提升治理的工作效率,降低成本。另外一方面,平台治理算法团队致力于攻坚前沿的AI技术,以技术驱动推动业务的变革和发展,领域涉及广泛,包括但不限于NLP/CV/多模态/大模型/图算法/序列算法等。 课题介绍: 背景:电商智能审核业务比较复杂,随着审核技术的不断演进,各个领域面临着新的风险问题和对抗形式,这对大模型的应用提出了新的挑战。例如,在电商审核业务中,涉及审核PBR变更、长文本、长时序、多语言、少样本和AIGC生成对抗等问题时,现有的开源大模型表现往往不尽人意。因此,针对这些挑战,我们亟需研发专门针对电商智能审核的大模型,以提升其在电商治理中的有效性和适应性。特别的,针对电商业务特点,我们需要探索高质量的数据自动生成、高效的MOE Embedding、Auto-Prompt生成、高质量 COT输出、大模型知识蒸馏等。此外,该模型应能够满足电商审核业务的需求,实现高准确率的自主决策和可解释性的COT生成,显著减少误判。针对动态变化的审核PBR变更,它能够通过RAG模块自动检索类似的审核案例,将复杂的审核PBR分解为简单的原子任务,自动拆分出驳回和豁免原子任务,并自动调用相应的Tools来解决这些任务,从而建立“知道拒绝并且知道为何拒绝”的业内领先智能审核系统。最终,大模型智能审核系统的审核效果需要接近或者超过人工审核,往全机审的路线上演进。 研究方向:模态融合能力:提升文本、音频、图像、视频和直播等多模态的细粒度理解能力,实现高准确率的自主决策和可解释性的COT生成;Few-Shot能力:探索电商多语言、长时序和少样本问题,增强Few-Shot和Zero-Shot能力,针对多变的业务规则具备复杂指令和Auto-Prompt生成能力;攻防对抗能力:研究AIGC图像视频的判别,增强审核大模型对隐晦、抽象的生成式内容的攻防对抗能力;Agent能力:具备调用RAG模块,使用Tools,和Auto-planning能力;提升大模型的动态推理和反思能力。 1、深入理解电商治理业务,探索基于大模型、多模态模型,持续提升商家/达人在准入、发品、售后等各个业务场景的风险识别效果; 2、提升商品治理审核智能化水平,迭代优化治理大模型,提升大模型对治理规则和商品信息的理解,实现高准高召的问题识别和自动处置; 3、负责强化电商治理场景下,大模型推理和反思能力,通过商品业务域SFT、高质量Cot、强化学习、数据合成等技术方案,提升商品治理大模型底座能力; 4、参与构建挖掘电商直播、商品、商家和带货主播等多种实体的数据,对大规模网络/海量特征序列进行建模,支撑商家、达人分类/风险团伙挖掘等业务场景解决问题,并为商家/达人治理提供支持; 5、参与构建大规模的图存储和图学习平台,完善电商社区内商家/商品/达人/视频内容的关系建设,构建电商实体通用表征能力,赋能治理业务; 6、建设售后服务MLLM基座大模型,并利用RAG/Agent/RL等技术,解决复杂场景下对体验问题的理解能力。
1. 基座增强:探索大模型垂直领域知识高效增强方法,包括数据策略、训练策略以及scaling law友好的训练方法,打造适配实际应用所需的基座能力; 2. 多模态端到端:实现语音与文本模态的深度融合与统一建模,打造高效、轻量的端到端多模态系统,从而有助于更全面、多维度地理解语音与文本,提供更强的智能以及更智能的交互模式; 3. 深度推理:突破大模型在复杂逻辑推理、因果推断、多步决策、沟通技巧等大模型基础通用能力,提升模型解决开放式问题的能力; 4. 结合大模型,研发对话交互场景的大模型Agent,支持智能客服、销售、数据分析、C端助理等项目,通过预训练、微调、强化学习等全链路的技术实践,实现类人的理解和执行能力,提升美团服务能力和效率; 5. 不断探索技术新领域,推动技术能力的沉淀和技术氛围的建设。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。