logo of bytedance

字节跳动大模型应用算法实习生-数据智能-筋斗云人才计划

实习兼职A220532地点:杭州状态:招聘

任职要求


1、2026届及以后毕业,博士在读,人工智能等相关专业优先(如计算机科学、数学、电子工程等);
2、熟练使用PythonPyTorch等语言和代码库,熟悉大模型领域尤其是强化学习相关研究工作和算法,有大模型强化学习的研发基础,拥有高影响力会议论文(ICLRNeurIPSICMLICLR等)、知名竞赛获奖经验者优先,有强化学习研究经验优先;
3、有优秀的学术视野和判断力,具备优秀的问题提出、分析和解决能力,良好的团队协作精神和沟通意识。

工作职责


团队介绍:专注大模型在数据智能方向的应用落地,横向支持公司多个数据产品的大模型解决方案。团队致力于跟进大模型前沿进展,结合领域模型的优化策略来设计端到端的算法优化和评估方案,实现数据产品的智能升级与应用效果提升。团队鼓励敏捷创新,知识共享的协作氛围,专注投入对数据智能课题的持续探索研究。

课题介绍:
背景:在Bird、Spider2.0等复杂数据分析榜单中,基于通用大模型的COT、Prompt工程方案相比BI分析师仍有较大差距(sota 75 vs 92)。近期推理大模型例如OpenAI O3、DeepSeek R1利用Test-Time Scaling Law提升模型推理能力,并指出后训练阶段中RL是提升的重要训练方式。本课题聚焦推理大模型后训练技术(SFT+RL),通过reasoning优化模糊语义理解、多步逻辑推导、复杂查询分解等关键问题,目标建立数据分析领域的推理大模型的方法体系。

课题主要关注的挑战点包括:
1、数据分析领域中高质量的reasoning数据生成,基于高质量数据的SFT冷启动训练来提升RL(GRPO、PPO)训练稳定性,包括多Epoch训练稳定、推理格式对齐等问题;
2、通过混合Reward(包括语义理解、代码执行、难度区分、子查询效率等多角度Reward)提升在模糊语义理解、多步逻辑推导、复杂查询分解的reasoning效果来提升结果准确率;
3、探索推理大模型overthinking的解决方案,面向简单到复杂问题数据分析问题,推理模型可合理的输出推理过程长度,同时保持整体准确率效果。

1、数据增强算法优化:设计面向数据推理任务的Data-Centric算法框架,优化Reasoning Data合成链路,提升训练数据的逻辑一致性、领域适配性与多样性;
2、Test-Time Compute:负责数据大模型与推理大模型的创新结合,解决思维链生成中的Over/Under-Thinking问题,探索复杂数据分析任务的Reward最优实践收益(包括语义理解、执行正确、查询效率、洞察启发性等);
3、推理大模型应用落地:跟进开源SOTA大模型的技术演进,实践Post-Training阶段的领域适配优化,在数据洞察机器人等产品中的验证应用价值,并基于评估体系实现效果的持续迭代,沉淀技术专利。
包括英文材料
Python+
PyTorch+
大模型+
强化学习+
算法+
NeurIPS+
ICML+
相关职位

logo of bytedance
实习A234706

团队介绍:专注大模型在数据智能方向的应用落地,横向支持公司多个数据产品的大模型解决方案。团队致力于跟进大模型前沿进展,结合领域模型的优化策略来设计端到端的算法优化和评估方案,实现数据产品的智能升级与应用效果提升。团队鼓励敏捷创新,知识共享的协作氛围,专注投入对数据智能课题的持续探索研究。 课题介绍: 背景:在Bird、Spider2.0等复杂数据分析榜单中,基于通用大模型的COT、Prompt 工程方案相比BI分析师仍有较大差距(sota 75 vs 92)。近期推理大模型例如OpenAI O3、DeepSeek R1利用Test-Time Scaling Law提升模型推理能力,并指出后训练阶段中RL是提升的重要训练方式。本课题聚焦推理大模型后训练技术(SFT+RL),通过reasoning优化模糊语义理解、多步逻辑推导、复杂查询分解等关键问题,目标建立数据分析领域的推理大模型的方法体系。 课题主要关注的挑战点包括: 1、数据分析领域中高质量的reasoning数据生成,基于高质量数据的SFT冷启动训练来提升RL(GRPO、PPO)训练稳定性,包括多Epoch训练稳定、推理格式对齐等问题; 2、通过混合Reward(包括语义理解、代码执行、难度区分、子查询效率等多角度Reward)提升在模糊语义理解、多步逻辑推导、复杂查询分解的reasoning效果来提升结果准确率; 3、探索推理大模型overthinking的解决方案,面向简单到复杂问题数据分析问题,推理模型可合理的输出推理过程长度,同时保持整体准确率效果。 1、数据增强算法优化:设计面向数据推理任务的Data-Centric算法框架,优化Reasoning Data合成链路,提升训练数据的逻辑一致性、领域适配性与多样性; 2、Test-Time Compute:负责数据大模型与推理大模型的创新结合,解决思维链生成中的Over/Under-Thinking问题,探索复杂数据分析任务的Reward最优实践收益(包括语义理解、执行正确、查询效率、洞察启发性等); 3、推理大模型应用落地:跟进开源SOTA大模型的技术演进,实践Post-Training阶段的领域适配优化,在数据洞察机器人等产品中的验证应用价值,并基于评估体系实现效果的持续迭代,沉淀技术专利。

更新于 2025-03-03
logo of bytedance
实习A160052

团队介绍:国际化内容安全算法研究团队致力于为字节跳动国际化产品的用户维护安全可信赖环境,通过开发、迭代机器学习模型和信息系统以更早、更快发掘风险、监控风险、响应紧急事件,团队同时负责产品基座大模型的研发,我们在研发过程中需要解决数据合规、模型推理能力、多语种性能优化等方面的问题,从而为平台上的内容审核、搜索、推荐等多项业务提供安全合规,性能优越的基座模型。 课题介绍: 背景:近年来,大规模语言模型(Large Language Models, LLM)在自然语言处理和人工智能的各个领域都取得了显著的进展。这些模型展示了强大的能力,例如在生成语言、回答问题、翻译文本等任务上表现优异。然而,LLM 的推理能力仍有很大的提升空间。在现有的研究中,通常依赖于大量的监督微调(Supervised Fine-Tuning, SFT)数据来增强模型的推理性能。然而,高质量 SFT 数据的获取成本高昂,这对模型的开发和应用带来了极大的限制。为了提升推理能力,OpenAI 的 o1 系列模型通过增加思维链(Chain-of-Thought, CoT)的推理过程长度取得了一定的成功。这种方法虽然有效,但在实际测试时如何高效地进行扩展仍是一个开放的问题。一些研究尝试使用基于过程的奖励模型(Process-based Reward Model, PRM)、强化学习(Reinforcement Learning, RL)以及蒙特卡洛树搜索算法(Monte Carlo Tree Search, MCTS)等方法来解决推理问题,然而这些方法尚未能达到 OpenAI o1 系列模型的通用推理性能水平。最近deepseek r1在论文中提到通过纯强化学习的方法,可以使得 LLM 自主发展推理能力,而无需依赖昂贵的 SFT 数据。这一系列的工作都揭示着强化学习对LLM的巨大潜力。 1、Reward模型的设计:在强化学习过程中,设计一个合适的reward模型是关键。Reward模型需要准确地反映推理过程的效果,并引导模型逐步提升其推理能力。这不仅要求对不同任务精准设定评估标准,还要确保reward模型能够在训练过程中动态调整,以适应模型性能的变化和提高; 2、稳定的训练过程:在缺乏高质量SFT数据的情况下,如何确保强化学习过程中的稳定训练是一个重大挑战。强化学习过程通常涉及大量的探索和试错,这可能导致训练不稳定甚至模型性能下降。需要开发具有鲁棒性的训练方法,以保证模型在训练过程中的稳定性和效果; 3、如何从数学和代码任务上拓展到自然语言任务上:现有的推理强化方法主要应用在数学和代码这些CoT数据量相对丰富的任务上。然而,自然语言任务的开放性和复杂性更高,如何将成功的RL策略从这些相对简单的任务拓展到自然语言处理任务上,要求对数据处理和RL方法进行深入的研究和创新,以实现跨任务的通用推理能力; 4、推理效率的提升:在保证推理性能的前提下,提升推理效率也是一个重要挑战。推理过程的效率直接影响到模型在实际应用中的可用性和经济性。可以考虑利用知识蒸馏技术,将复杂模型的知识传递给较小的模型,以减少计算资源消耗。另外,使用长思维链(Long Chain-of-Thought, Long-CoT)技术来改进短思维链(Short-CoT)模型,也是一种潜在的方法,以在保证推理质量的同时提升推理速度。

更新于 2025-03-05
logo of bytedance
实习A90088

团队介绍:国际化内容安全算法研究团队致力于为字节跳动国际化产品的用户维护安全可信赖环境,通过开发、迭代机器学习模型和信息系统以更早、更快发掘风险、监控风险、响应紧急事件,团队同时负责产品基座大模型的研发,我们在研发过程中需要解决数据合规、模型推理能力、多语种性能优化等方面的问题,从而为平台上的内容审核、搜索、推荐等多项业务提供安全合规,性能优越的基座模型。 课题介绍: 背景:近年来,大规模语言模型(Large Language Models, LLM)在自然语言处理和人工智能的各个领域都取得了显著的进展。这些模型展示了强大的能力,例如在生成语言、回答问题、翻译文本等任务上表现优异。然而,LLM 的推理能力仍有很大的提升空间。在现有的研究中,通常依赖于大量的监督微调(Supervised Fine-Tuning, SFT)数据来增强模型的推理性能。然而,高质量 SFT 数据的获取成本高昂,这对模型的开发和应用带来了极大的限制。为了提升推理能力,OpenAI 的 o1 系列模型通过增加思维链(Chain-of-Thought, CoT)的推理过程长度取得了一定的成功。这种方法虽然有效,但在实际测试时如何高效地进行扩展仍是一个开放的问题。一些研究尝试使用基于过程的奖励模型(Process-based Reward Model, PRM)、强化学习(Reinforcement Learning, RL)以及蒙特卡洛树搜索算法(Monte Carlo Tree Search, MCTS)等方法来解决推理问题,然而这些方法尚未能达到 OpenAI o1 系列模型的通用推理性能水平。最近deepseek r1在论文中提到通过纯强化学习的方法,可以使得 LLM 自主发展推理能力,而无需依赖昂贵的 SFT 数据。这一系列的工作都揭示着强化学习对LLM的巨大潜力。 1、Reward模型的设计:在强化学习过程中,设计一个合适的reward模型是关键。Reward模型需要准确地反映推理过程的效果,并引导模型逐步提升其推理能力。这不仅要求对不同任务精准设定评估标准,还要确保reward模型能够在训练过程中动态调整,以适应模型性能的变化和提高; 2、稳定的训练过程:在缺乏高质量SFT数据的情况下,如何确保强化学习过程中的稳定训练是一个重大挑战。强化学习过程通常涉及大量的探索和试错,这可能导致训练不稳定甚至模型性能下降。需要开发具有鲁棒性的训练方法,以保证模型在训练过程中的稳定性和效果; 3、如何从数学和代码任务上拓展到自然语言任务上:现有的推理强化方法主要应用在数学和代码这些CoT数据量相对丰富的任务上。然而,自然语言任务的开放性和复杂性更高,如何将成功的RL策略从这些相对简单的任务拓展到自然语言处理任务上,要求对数据处理和RL方法进行深入的研究和创新,以实现跨任务的通用推理能力; 4、推理效率的提升:在保证推理性能的前提下,提升推理效率也是一个重要挑战。推理过程的效率直接影响到模型在实际应用中的可用性和经济性。可以考虑利用知识蒸馏技术,将复杂模型的知识传递给较小的模型,以减少计算资源消耗。另外,使用长思维链(Long Chain-of-Thought, Long-CoT)技术来改进短思维链(Short-CoT)模型,也是一种潜在的方法,以在保证推理质量的同时提升推理速度。

更新于 2025-03-05
logo of bytedance
实习A139850

团队介绍:Stone-AI PaaS团队专注研究AI/大模型应用相关领域的技术和产品,致力于创造和实现创新的人工智能平台服务。团队目前已服务于字节跳动多款产品,比如豆包、Cici、Coze、Trae等。同时团队内部也在孵化多款AI应用创新产品,积极探索大模型应用的技术发展。团队氛围好,发展空间大,欢迎加入! 课题介绍: 背景:随着人工智能技术的飞速发展,大语言模型(LLM)在自然语言处理领域取得了显著进展,为智能对话系统的发展提供了有力支撑。然而,现有的智能对话系统在面对复杂多变的实际应用场景时,仍存在诸多不足。一方面,用户对于交互的多样性和便捷性提出了更高要求,期望能够实现语音、图像、文本等多模态信息的自然交互;另一方面,面对复杂问题,当前对话系统缺乏深度思考和推理能力,难以提供全面且精准的解答。同时,在知识获取方面,如何高效地调度各类工具,挖掘优质内容,以满足用户的多样化需求,也成为亟待解决的问题。因此,开展对多模态交互、深度思考、工具调度以及优质内容挖掘方向的研究,对于提升通用对话助手的性能和用户体验具有重要的现实意义。 研究方向: 1、多模态交互方向:深入研究语音、图像、文本等多模态信息的融合与交互技术,开发能够实现多模态信息无缝对接的算法模型。通过构建多模态语义理解框架,使对话助手能够准确理解不同模态输入的含义,并根据用户需求以语音、图像、文本等多种形式进行输出,实现自然流畅的多模态交互体验。例如,当用户输入一张图片并提出相关问题时,对话助手能够识别图片内容,并结合文本信息进行分析解答,同时可以以语音形式反馈结果; 2、深度思考方向:探索基于深度学习的推理机制,提升对话助手的逻辑推理和问题解决能力。引入知识图谱、语义网络等技术,增强对话助手对知识的理解和运用能力,使其能够在面对复杂问题时,进行深度思考和分析,挖掘问题的本质,提供更具逻辑性和准确性的回答。比如,在解答科学类复杂问题时,对话助手能够基于知识图谱进行推理,给出全面且深入的解释; 3、工具调度方向:构建智能工具调度系统,使对话助手能够根据用户问题的类型和需求,自动识别并调用合适的外部工具,如信息检索工具、数据分析工具、翻译工具等。建立工具之间的协同工作机制,确保在处理复杂任务时,多个工具能够相互配合,实现信息共享和流程优化,提高问题解决的效率和质量。例如,在处理跨国业务相关问题时,对话助手可以同时调用翻译工具和信息检索工具,快速获取并翻译相关资料,为用户提供准确信息; 4、优质内容挖掘方向:研发高效的内容挖掘算法,从海量的文本、图像、视频等数据中筛选出优质、有价值的信息。利用自然语言处理和计算机视觉技术,对内容进行分类、标注和评估,建立优质内容数据库。通过与对话助手的交互,根据用户的兴趣和需求,精准推送相关的优质内容,满足用户对高质量信息的获取需求。比如,为对历史文化感兴趣的用户推荐相关的优质纪录片、学术论文等。

更新于 2025-03-03