字节跳动大模型应用算法实习生-国际化内容安全算法研究-筋斗云人才计划

实习兼职A900882025-03-05地点：上海状态：招聘

扫码手机上打开

任职要求

1、2026届及之后毕业，博士在读，计算机、电子等相关专业优先；
2、丰富的ML/CV/NLP/推荐经验，包括但不限于：
1）机器学习/数据挖掘/CV/NLP/多模态等相关竞赛或行业经验；
2）机器学习/数据挖掘/人工智能/大模型相关领域的会议论文（KDD/WWW/NIPS/ICML/CVPR/ACL/AAA…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

团队介绍：国际化内容安全算法研究团队致力于为字节跳动国际化产品的用户维护安全可信赖环境，通过开发、迭代机器学习模型和信息系统以更早、更快发掘风险、监控风险、响应紧急事件，团队同时负责产品基座大模型的研发，我们在研发过程中需要解决数据合规、模型推理能力、多语种性能优化等方面的问题，从而为平台上的内容审核、搜索、推荐等多项业务提供安全合规，性能优越的基座模型。

课题介绍：
背景：近年来，大规模语言模型（Large Language Models, LLM）在自然语言处理和人工智能的各个领域都取得了显著的进展。这些模型展示了强大的能力，例如在生成语言、回答问题、翻译文本等任务上表现优异。然而，LLM 的推理能力仍有很大的提升空间。在现有的研究中，通常依赖于大量的监督微调（Supervised Fine-Tuning, SFT）数据来增强模型的推理性能。然而，高质量 SFT 数据的获取成本高昂，这对模型的开发和应用带来了极大的限制。为了提升推理能力，OpenAI 的 o1 系列模型通过增加思维链（Chain-of-Thought, CoT）的推理过程长度取得了一定的成功。这种方法虽然有效，但在实际测试时如何高效地进行扩展仍是一个开放的问题。一些研究尝试使用基于过程的奖励模型（Process-based Reward Model, PRM）、强化学习（Reinforcement Learning, RL）以及蒙特卡洛树搜索算法（Monte Carlo Tree Search, MCTS）等方法来解决推理问题，然而这些方法尚未能达到 OpenAI o1 系列模型的通用推理性能水平。最近deepseek r1在论文中提到通过纯强化学习的方法，可以使得 LLM 自主发展推理能力，而无需依赖昂贵的 SFT 数据。这一系列的工作都揭示着强化学习对LLM的巨大潜力。


1、Reward模型的设计：在强化学习过程中，设计一个合适的reward模型是关键。Reward模型需要准确地反映推理过程的效果，并引导模型逐步提升其推理能力。这不仅要求对不同任务精准设定评估标准，还要确保reward模型能够在训练过程中动态调整，以适应模型性能的变化和提高；
2、稳定的训练过程：在缺乏高质量SFT数据的情况下，如何确保强化学习过程中的稳定训练是一个重大挑战。强化学习过程通常涉及大量的探索和试错，这可能导致训练不稳定甚至模型性能下降。需要开发具有鲁棒性的训练方法，以保证模型在训练过程中的稳定性和效果；
3、如何从数学和代码任务上拓展到自然语言任务上：现有的推理强化方法主要应用在数学和代码这些CoT数据量相对丰富的任务上。然而，自然语言任务的开放性和复杂性更高，如何将成功的RL策略从这些相对简单的任务拓展到自然语言处理任务上，要求对数据处理和RL方法进行深入的研究和创新，以实现跨任务的通用推理能力；
4、推理效率的提升：在保证推理性能的前提下，提升推理效率也是一个重要挑战。推理过程的效率直接影响到模型在实际应用中的可用性和经济性。可以考虑利用知识蒸馏技术，将复杂模型的知识传递给较小的模型，以减少计算资源消耗。另外，使用长思维链（Long Chain-of-Thought, Long-CoT）技术来改进短思维链（Short-CoT）模型，也是一种潜在的方法，以在保证推理质量的同时提升推理速度。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

NLP+

机器学习+

数据挖掘+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

大模型应用算法实习生-国际化内容安全算法研究-筋斗云人才计划

实习A160052

团队介绍：国际化内容安全算法研究团队致力于为字节跳动国际化产品的用户维护安全可信赖环境，通过开发、迭代机器学习模型和信息系统以更早、更快发掘风险、监控风险、响应紧急事件，团队同时负责产品基座大模型的研发，我们在研发过程中需要解决数据合规、模型推理能力、多语种性能优化等方面的问题，从而为平台上的内容审核、搜索、推荐等多项业务提供安全合规，性能优越的基座模型。课题介绍：背景：近年来，大规模语言模型（Large Language Models, LLM）在自然语言处理和人工智能的各个领域都取得了显著的进展。这些模型展示了强大的能力，例如在生成语言、回答问题、翻译文本等任务上表现优异。然而，LLM 的推理能力仍有很大的提升空间。在现有的研究中，通常依赖于大量的监督微调（Supervised Fine-Tuning, SFT）数据来增强模型的推理性能。然而，高质量 SFT 数据的获取成本高昂，这对模型的开发和应用带来了极大的限制。为了提升推理能力，OpenAI 的 o1 系列模型通过增加思维链（Chain-of-Thought, CoT）的推理过程长度取得了一定的成功。这种方法虽然有效，但在实际测试时如何高效地进行扩展仍是一个开放的问题。一些研究尝试使用基于过程的奖励模型（Process-based Reward Model, PRM）、强化学习（Reinforcement Learning, RL）以及蒙特卡洛树搜索算法（Monte Carlo Tree Search, MCTS）等方法来解决推理问题，然而这些方法尚未能达到 OpenAI o1 系列模型的通用推理性能水平。最近deepseek r1在论文中提到通过纯强化学习的方法，可以使得 LLM 自主发展推理能力，而无需依赖昂贵的 SFT 数据。这一系列的工作都揭示着强化学习对LLM的巨大潜力。 1、Reward模型的设计：在强化学习过程中，设计一个合适的reward模型是关键。Reward模型需要准确地反映推理过程的效果，并引导模型逐步提升其推理能力。这不仅要求对不同任务精准设定评估标准，还要确保reward模型能够在训练过程中动态调整，以适应模型性能的变化和提高； 2、稳定的训练过程：在缺乏高质量SFT数据的情况下，如何确保强化学习过程中的稳定训练是一个重大挑战。强化学习过程通常涉及大量的探索和试错，这可能导致训练不稳定甚至模型性能下降。需要开发具有鲁棒性的训练方法，以保证模型在训练过程中的稳定性和效果； 3、如何从数学和代码任务上拓展到自然语言任务上：现有的推理强化方法主要应用在数学和代码这些CoT数据量相对丰富的任务上。然而，自然语言任务的开放性和复杂性更高，如何将成功的RL策略从这些相对简单的任务拓展到自然语言处理任务上，要求对数据处理和RL方法进行深入的研究和创新，以实现跨任务的通用推理能力； 4、推理效率的提升：在保证推理性能的前提下，提升推理效率也是一个重要挑战。推理过程的效率直接影响到模型在实际应用中的可用性和经济性。可以考虑利用知识蒸馏技术，将复杂模型的知识传递给较小的模型，以减少计算资源消耗。另外，使用长思维链（Long Chain-of-Thought, Long-CoT）技术来改进短思维链（Short-CoT）模型，也是一种潜在的方法，以在保证推理质量的同时提升推理速度。

更新于 2025-03-05北京

算法实习生-国际化内容安全平台

实习T3160

日常实习：面向全体在校生，为符合岗位要求的同学提供为期3个月及以上的项目实践机会。团队介绍：国际化内容安全平台团队致力于为字节跳动国际化产品的用户维护安全可信赖环境，通过开发、迭代机器学习模型和信息系统以更早、更快发掘风险、监控风险、响应紧急事件，以人工智能技术支持业务发展，力求更高效、更敏捷、更全能地维护站内生态安全。 1、投身于国际化业务场景下的预训练大模型技术研究与应用创新，专注于提升预训练效率，通过对海量数据的精准筛选与处理策略研究，优化数据选择机制，以及训练策略，完整基座语言模型的优化； 2、依托国际化场景对多语言的需求，深度优化多语言训练技术，包括数据策略和模型策略，提升在各语种知识迁移和对齐，实现强大的多语种基座模型能力； 3、深入探索后训练（Post training）技术，包括继续预训练（CPT)，微调对齐（SFT，RFT）等不同的方面，精心钻研微调对齐技术和推理能力优化，确保大模型在国际化业务不同任务与领域应用中的精准适配与高效表现； 4、全力攻克模型效率优化难题，从模型架构设计、算法优化, 包括但不限于知识蒸馏、模型量化压缩，样本采样等方法等多维度入手，打造高效能、低能耗的预训练大模型，使其在实际业务应用中展现卓越的处理速度与资源利用率，助力构建智能、高效且具有广泛适应性的内容处理与分析系统； 5、建立有国际化短视频场景特色的预训练模型评估体系和数据体系，为模型的长期迭代提供有力支撑； 6、探索前沿AI技术，包含但不限于AIGC、LLM、多模态内容理解（视频/图像/音频/文本）等，以构建下一代安全模型。

更新于 2023-03-22北京

算法实习生-国际化内容安全平台

实习A30543

ByteIntern：面向2026届毕业生（2025年9月-2026年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：国际化内容安全平台团队致力于为字节跳动国际化产品的用户维护安全可信赖环境，通过开发、迭代机器学习模型和信息系统以更早、更快发掘风险、监控风险、响应紧急事件，以人工智能技术支持业务发展，力求更高效、更敏捷、更全能地维护站内生态安全。 1、投身于国际化业务场景下的预训练大模型技术研究与应用创新，专注于提升预训练效率，通过对海量数据的精准筛选与处理策略研究，优化数据选择机制，以及训练策略，完整基座语言模型的优化； 2、依托国际化场景对多语言的需求，深度优化多语言训练技术，包括数据策略和模型策略，提升在各语种知识迁移和对齐，实现强大的多语种基座模型能力； 3、深入探索后训练（Post training）技术，包括继续预训练（CPT)，微调对齐（SFT，RFT）等不同的方面，精心钻研微调对齐技术和推理能力优化，确保大模型在国际化业务不同任务与领域应用中的精准适配与高效表现； 4、全力攻克模型效率优化难题，从模型架构设计、算法优化,包括但不限于知识蒸馏、模型量化压缩，样本采样等方法等多维度入手，打造高效能、低能耗的预训练大模型，使其在实际业务应用中展现卓越的处理速度与资源利用率，助力构建智能、高效且具有广泛适应性的内容处理与分析系统； 5、建立有国际化短视频场景特色的预训练模型评估体系和数据体系，为模型的长期迭代提供有力支撑； 6、探索前沿AI技术，包含但不限于AIGC、LLM、多模态内容理解（视频/图像/音频/文本）等，以构建下一代安全模型。

更新于 2025-02-20上海

算法实习生-国际化内容安全平台

实习A172383

ByteIntern：面向2026届毕业生（2025年9月-2026年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：国际化内容安全平台团队致力于为字节跳动国际化产品的用户维护安全可信赖环境，通过开发、迭代机器学习模型和信息系统以更早、更快发掘风险、监控风险、响应紧急事件，以人工智能技术支持业务发展，力求更高效、更敏捷、更全能地维护站内生态安全。 1、投身于国际化业务场景下的预训练大模型技术研究与应用创新，专注于提升预训练效率，通过对海量数据的精准筛选与处理策略研究，优化数据选择机制，以及训练策略，完整基座语言模型的优化； 2、依托国际化场景对多语言的需求，深度优化多语言训练技术，包括数据策略和模型策略，提升在各语种知识迁移和对齐，实现强大的多语种基座模型能力； 3、深入探索后训练（Post training）技术，包括继续预训练（CPT)，微调对齐（SFT，RFT）等不同的方面，精心钻研微调对齐技术和推理能力优化，确保大模型在国际化业务不同任务与领域应用中的精准适配与高效表现； 4、全力攻克模型效率优化难题，从模型架构设计、算法优化, 包括但不限于知识蒸馏、模型量化压缩，样本采样等方法等多维度入手，打造高效能、低能耗的预训练大模型，使其在实际业务应用中展现卓越的处理速度与资源利用率，助力构建智能、高效且具有广泛适应性的内容处理与分析系统； 5、建立有国际化短视频场景特色的预训练模型评估体系和数据体系，为模型的长期迭代提供有力支撑； 6、探索前沿AI技术，包含但不限于AIGC、LLM、多模态内容理解（视频/图像/音频/文本）等，以构建下一代安全模型。

更新于 2025-02-07北京