【美团】大模型算法实习生（推理强化、基座增强、智能体应用等方向）

实习A160052

团队介绍：国际化内容安全算法研究团队致力于为字节跳动国际化产品的用户维护安全可信赖环境，通过开发、迭代机器学习模型和信息系统以更早、更快发掘风险、监控风险、响应紧急事件，团队同时负责产品基座大模型的研发，我们在研发过程中需要解决数据合规、模型推理能力、多语种性能优化等方面的问题，从而为平台上的内容审核、搜索、推荐等多项业务提供安全合规，性能优越的基座模型。课题介绍：背景：近年来，大规模语言模型（Large Language Models, LLM）在自然语言处理和人工智能的各个领域都取得了显著的进展。这些模型展示了强大的能力，例如在生成语言、回答问题、翻译文本等任务上表现优异。然而，LLM 的推理能力仍有很大的提升空间。在现有的研究中，通常依赖于大量的监督微调（Supervised Fine-Tuning, SFT）数据来增强模型的推理性能。然而，高质量 SFT 数据的获取成本高昂，这对模型的开发和应用带来了极大的限制。为了提升推理能力，OpenAI 的 o1 系列模型通过增加思维链（Chain-of-Thought, CoT）的推理过程长度取得了一定的成功。这种方法虽然有效，但在实际测试时如何高效地进行扩展仍是一个开放的问题。一些研究尝试使用基于过程的奖励模型（Process-based Reward Model, PRM）、强化学习（Reinforcement Learning, RL）以及蒙特卡洛树搜索算法（Monte Carlo Tree Search, MCTS）等方法来解决推理问题，然而这些方法尚未能达到 OpenAI o1 系列模型的通用推理性能水平。最近deepseek r1在论文中提到通过纯强化学习的方法，可以使得 LLM 自主发展推理能力，而无需依赖昂贵的 SFT 数据。这一系列的工作都揭示着强化学习对LLM的巨大潜力。 1、Reward模型的设计：在强化学习过程中，设计一个合适的reward模型是关键。Reward模型需要准确地反映推理过程的效果，并引导模型逐步提升其推理能力。这不仅要求对不同任务精准设定评估标准，还要确保reward模型能够在训练过程中动态调整，以适应模型性能的变化和提高； 2、稳定的训练过程：在缺乏高质量SFT数据的情况下，如何确保强化学习过程中的稳定训练是一个重大挑战。强化学习过程通常涉及大量的探索和试错，这可能导致训练不稳定甚至模型性能下降。需要开发具有鲁棒性的训练方法，以保证模型在训练过程中的稳定性和效果； 3、如何从数学和代码任务上拓展到自然语言任务上：现有的推理强化方法主要应用在数学和代码这些CoT数据量相对丰富的任务上。然而，自然语言任务的开放性和复杂性更高，如何将成功的RL策略从这些相对简单的任务拓展到自然语言处理任务上，要求对数据处理和RL方法进行深入的研究和创新，以实现跨任务的通用推理能力； 4、推理效率的提升：在保证推理性能的前提下，提升推理效率也是一个重要挑战。推理过程的效率直接影响到模型在实际应用中的可用性和经济性。可以考虑利用知识蒸馏技术，将复杂模型的知识传递给较小的模型，以减少计算资源消耗。另外，使用长思维链（Long Chain-of-Thought, Long-CoT）技术来改进短思维链（Short-CoT）模型，也是一种潜在的方法，以在保证推理质量的同时提升推理速度。

更新于 2025-03-05北京

大模型应用算法实习生-国际化内容安全算法研究-筋斗云人才计划

实习A90088

团队介绍：国际化内容安全算法研究团队致力于为字节跳动国际化产品的用户维护安全可信赖环境，通过开发、迭代机器学习模型和信息系统以更早、更快发掘风险、监控风险、响应紧急事件，团队同时负责产品基座大模型的研发，我们在研发过程中需要解决数据合规、模型推理能力、多语种性能优化等方面的问题，从而为平台上的内容审核、搜索、推荐等多项业务提供安全合规，性能优越的基座模型。课题介绍：背景：近年来，大规模语言模型（Large Language Models, LLM）在自然语言处理和人工智能的各个领域都取得了显著的进展。这些模型展示了强大的能力，例如在生成语言、回答问题、翻译文本等任务上表现优异。然而，LLM 的推理能力仍有很大的提升空间。在现有的研究中，通常依赖于大量的监督微调（Supervised Fine-Tuning, SFT）数据来增强模型的推理性能。然而，高质量 SFT 数据的获取成本高昂，这对模型的开发和应用带来了极大的限制。为了提升推理能力，OpenAI 的 o1 系列模型通过增加思维链（Chain-of-Thought, CoT）的推理过程长度取得了一定的成功。这种方法虽然有效，但在实际测试时如何高效地进行扩展仍是一个开放的问题。一些研究尝试使用基于过程的奖励模型（Process-based Reward Model, PRM）、强化学习（Reinforcement Learning, RL）以及蒙特卡洛树搜索算法（Monte Carlo Tree Search, MCTS）等方法来解决推理问题，然而这些方法尚未能达到 OpenAI o1 系列模型的通用推理性能水平。最近deepseek r1在论文中提到通过纯强化学习的方法，可以使得 LLM 自主发展推理能力，而无需依赖昂贵的 SFT 数据。这一系列的工作都揭示着强化学习对LLM的巨大潜力。 1、Reward模型的设计：在强化学习过程中，设计一个合适的reward模型是关键。Reward模型需要准确地反映推理过程的效果，并引导模型逐步提升其推理能力。这不仅要求对不同任务精准设定评估标准，还要确保reward模型能够在训练过程中动态调整，以适应模型性能的变化和提高； 2、稳定的训练过程：在缺乏高质量SFT数据的情况下，如何确保强化学习过程中的稳定训练是一个重大挑战。强化学习过程通常涉及大量的探索和试错，这可能导致训练不稳定甚至模型性能下降。需要开发具有鲁棒性的训练方法，以保证模型在训练过程中的稳定性和效果； 3、如何从数学和代码任务上拓展到自然语言任务上：现有的推理强化方法主要应用在数学和代码这些CoT数据量相对丰富的任务上。然而，自然语言任务的开放性和复杂性更高，如何将成功的RL策略从这些相对简单的任务拓展到自然语言处理任务上，要求对数据处理和RL方法进行深入的研究和创新，以实现跨任务的通用推理能力； 4、推理效率的提升：在保证推理性能的前提下，提升推理效率也是一个重要挑战。推理过程的效率直接影响到模型在实际应用中的可用性和经济性。可以考虑利用知识蒸馏技术，将复杂模型的知识传递给较小的模型，以减少计算资源消耗。另外，使用长思维链（Long Chain-of-Thought, Long-CoT）技术来改进短思维链（Short-CoT）模型，也是一种潜在的方法，以在保证推理质量的同时提升推理速度。

更新于 2025-03-05上海

智能审核多模态大模型实习生-电商-筋斗云人才计划

实习A201245

团队介绍：Data-电商-平台治理算法团队，通过优化算法，和业务团队协作，对字节旗下的电商产品进行全方位的质量和生态的治理，既包括风险、违规和低质问题的打击，也包括健康电商生态的建设和优化，在最大程度的优化平台治理的效果的同时提升治理的工作效率，降低成本。另外一方面，平台治理算法团队致力于攻坚前沿的AI技术，以技术驱动推动业务的变革和发展，领域涉及广泛，包括但不限于NLP/CV/多模态/大模型/图算法/序列算法等。课题介绍：背景：电商智能审核业务比较复杂，随着审核技术的不断演进，各个领域面临着新的风险问题和对抗形式，这对大模型的应用提出了新的挑战。例如，在电商审核业务中，涉及审核PBR变更、长文本、长时序、多语言、少样本和AIGC生成对抗等问题时，现有的开源大模型表现往往不尽人意。因此，针对这些挑战，我们亟需研发专门针对电商智能审核的大模型，以提升其在电商治理中的有效性和适应性。特别的，针对电商业务特点，我们需要探索高质量的数据自动生成、高效的MOE Embedding、Auto-Prompt生成、高质量 COT输出、大模型知识蒸馏等。此外，该模型应能够满足电商审核业务的需求，实现高准确率的自主决策和可解释性的COT生成，显著减少误判。针对动态变化的审核PBR变更，它能够通过RAG模块自动检索类似的审核案例，将复杂的审核PBR分解为简单的原子任务，自动拆分出驳回和豁免原子任务，并自动调用相应的Tools来解决这些任务，从而建立“知道拒绝并且知道为何拒绝”的业内领先智能审核系统。最终，大模型智能审核系统的审核效果需要接近或者超过人工审核，往全机审的路线上演进。研究方向：模态融合能力：提升文本、音频、图像、视频和直播等多模态的细粒度理解能力，实现高准确率的自主决策和可解释性的COT生成；Few-Shot能力：探索电商多语言、长时序和少样本问题，增强Few-Shot和Zero-Shot能力，针对多变的业务规则具备复杂指令和Auto-Prompt生成能力；攻防对抗能力：研究AIGC图像视频的判别，增强审核大模型对隐晦、抽象的生成式内容的攻防对抗能力；Agent能力：具备调用RAG模块，使用Tools，和Auto-planning能力；提升大模型的动态推理和反思能力。 1、深入理解电商治理业务，探索基于大模型、多模态模型，持续提升商家/达人在准入、发品、售后等各个业务场景的风险识别效果； 2、提升商品治理审核智能化水平，迭代优化治理大模型，提升大模型对治理规则和商品信息的理解，实现高准高召的问题识别和自动处置； 3、负责强化电商治理场景下，大模型推理和反思能力，通过商品业务域SFT、高质量Cot、强化学习、数据合成等技术方案，提升商品治理大模型底座能力； 4、参与构建挖掘电商直播、商品、商家和带货主播等多种实体的数据，对大规模网络/海量特征序列进行建模，支撑商家、达人分类/风险团伙挖掘等业务场景解决问题，并为商家/达人治理提供支持； 5、参与构建大规模的图存储和图学习平台，完善电商社区内商家/商品/达人/视频内容的关系建设，构建电商实体通用表征能力，赋能治理业务； 6、建设售后服务MLLM基座大模型，并利用RAG/Agent/RL等技术，解决复杂场景下对体验问题的理解能力。

更新于 2025-03-04北京

智能审核多模态大模型实习生-电商-筋斗云人才计划

实习A143587

团队介绍：Data-电商-平台治理算法团队，通过优化算法，和业务团队协作，对字节旗下的电商产品进行全方位的质量和生态的治理，既包括风险、违规和低质问题的打击，也包括健康电商生态的建设和优化，在最大程度的优化平台治理的效果的同时提升治理的工作效率，降低成本。另外一方面，平台治理算法团队致力于攻坚前沿的AI技术，以技术驱动推动业务的变革和发展，领域涉及广泛，包括但不限于NLP/CV/多模态/大模型/图算法/序列算法等。课题介绍：背景：电商智能审核业务比较复杂，随着审核技术的不断演进，各个领域面临着新的风险问题和对抗形式，这对大模型的应用提出了新的挑战。例如，在电商审核业务中，涉及审核PBR变更、长文本、长时序、多语言、少样本和AIGC生成对抗等问题时，现有的开源大模型表现往往不尽人意。因此，针对这些挑战，我们亟需研发专门针对电商智能审核的大模型，以提升其在电商治理中的有效性和适应性。特别的，针对电商业务特点，我们需要探索高质量的数据自动生成、高效的MOE Embedding、Auto-Prompt生成、高质量 COT输出、大模型知识蒸馏等。此外，该模型应能够满足电商审核业务的需求，实现高准确率的自主决策和可解释性的COT生成，显著减少误判。针对动态变化的审核PBR变更，它能够通过RAG模块自动检索类似的审核案例，将复杂的审核PBR分解为简单的原子任务，自动拆分出驳回和豁免原子任务，并自动调用相应的Tools来解决这些任务，从而建立“知道拒绝并且知道为何拒绝”的业内领先智能审核系统。最终，大模型智能审核系统的审核效果需要接近或者超过人工审核，往全机审的路线上演进。研究方向：模态融合能力：提升文本、音频、图像、视频和直播等多模态的细粒度理解能力，实现高准确率的自主决策和可解释性的COT生成；Few-Shot能力：探索电商多语言、长时序和少样本问题，增强Few-Shot和Zero-Shot能力，针对多变的业务规则具备复杂指令和Auto-Prompt生成能力；攻防对抗能力：研究AIGC图像视频的判别，增强审核大模型对隐晦、抽象的生成式内容的攻防对抗能力；Agent能力：具备调用RAG模块，使用Tools，和Auto-planning能力；提升大模型的动态推理和反思能力。 1、深入理解电商治理业务，探索基于大模型、多模态模型，持续提升商家/达人在准入、发品、售后等各个业务场景的风险识别效果； 2、提升商品治理审核智能化水平，迭代优化治理大模型，提升大模型对治理规则和商品信息的理解，实现高准高召的问题识别和自动处置； 3、负责强化电商治理场景下，大模型推理和反思能力，通过商品业务域SFT、高质量Cot、强化学习、数据合成等技术方案，提升商品治理大模型底座能力； 4、参与构建挖掘电商直播、商品、商家和带货主播等多种实体的数据，对大规模网络/海量特征序列进行建模，支撑商家、达人分类/风险团伙挖掘等业务场景解决问题，并为商家/达人治理提供支持； 5、参与构建大规模的图存储和图学习平台，完善电商社区内商家/商品/达人/视频内容的关系建设，构建电商实体通用表征能力，赋能治理业务； 6、建设售后服务MLLM基座大模型，并利用RAG/Agent/RL等技术，解决复杂场景下对体验问题的理解能力。

更新于 2025-03-04上海

美团大模型算法实习生（推理强化、基座增强、智能体应用等方向）

任职要求

工作职责