logo of bytedance

字节跳动大模型应用算法实习生-数据智能-筋斗云人才计划

实习兼职A220532地点:杭州状态:招聘

任职要求


1、2026届及以后毕业,博士在读,人工智能等相关专业优先(如计算机科学、数学、电子工程等);
2、熟练使用PythonPyTorch等语言和代码库,熟悉大模型领域尤其是强化学习相关研究工作和算法,有大模型强化学习的研发…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍:专注大模型在数据智能方向的应用落地,横向支持公司多个数据产品的大模型解决方案。团队致力于跟进大模型前沿进展,结合领域模型的优化策略来设计端到端的算法优化和评估方案,实现数据产品的智能升级与应用效果提升。团队鼓励敏捷创新,知识共享的协作氛围,专注投入对数据智能课题的持续探索研究。

课题介绍:
背景:在Bird、Spider2.0等复杂数据分析榜单中,基于通用大模型的COT、Prompt工程方案相比BI分析师仍有较大差距(sota 75 vs 92)。近期推理大模型例如OpenAI O3、DeepSeek R1利用Test-Time Scaling Law提升模型推理能力,并指出后训练阶段中RL是提升的重要训练方式。本课题聚焦推理大模型后训练技术(SFT+RL),通过reasoning优化模糊语义理解、多步逻辑推导、复杂查询分解等关键问题,目标建立数据分析领域的推理大模型的方法体系。

课题主要关注的挑战点包括:
1、数据分析领域中高质量的reasoning数据生成,基于高质量数据的SFT冷启动训练来提升RL(GRPO、PPO)训练稳定性,包括多Epoch训练稳定、推理格式对齐等问题;
2、通过混合Reward(包括语义理解、代码执行、难度区分、子查询效率等多角度Reward)提升在模糊语义理解、多步逻辑推导、复杂查询分解的reasoning效果来提升结果准确率;
3、探索推理大模型overthinking的解决方案,面向简单到复杂问题数据分析问题,推理模型可合理的输出推理过程长度,同时保持整体准确率效果。

1、数据增强算法优化:设计面向数据推理任务的Data-Centric算法框架,优化Reasoning Data合成链路,提升训练数据的逻辑一致性、领域适配性与多样性;
2、Test-Time Compute:负责数据大模型与推理大模型的创新结合,解决思维链生成中的Over/Under-Thinking问题,探索复杂数据分析任务的Reward最优实践收益(包括语义理解、执行正确、查询效率、洞察启发性等);
3、推理大模型应用落地:跟进开源SOTA大模型的技术演进,实践Post-Training阶段的领域适配优化,在数据洞察机器人等产品中的验证应用价值,并基于评估体系实现效果的持续迭代,沉淀技术专利。
包括英文材料
Python+
PyTorch+
大模型+
强化学习+
还有更多 •••
相关职位

logo of bytedance
实习A69475

团队介绍:AI Coding团队致力于探索LLM在软件开发全生命周期的应用,支持MarsCode、Trae等代码智能产品中代码补全、智能编辑、程序debug以及代码修复等核心AI功能的全链路模型优化。欢迎对大模型、Agent技术和开发者工具体系感兴趣、对技术有追求的同学加入,共同成长! 课题介绍: 一、课题背景与研究动机 1、复杂软件工程项目的挑战与需求:随着企业业务需求的快速增长,软件项目规模持续扩大,系统架构日趋复杂,跨语言、多框架、多平台开发成为常态。开发团队在应对代码理解、跨模块协作、版本演化和长期维护等问题时,效率与质量面临双重挑战; 2、大模型在编程领域的潜力与不足:大规模语言模型在代码生成、补全和文档生成等任务上已展现强大能力,推动了智能化开发工具的初步落地。然而,在应对复杂软件工程项目时,现有模型在长序列建模、上下文一致性、跨文件依赖理解及代码质量保障方面仍有明显不足; 3、技术与产业机遇:1)范式变革:大模型有望成为软件开发全流程的重要参与者,推动从工具辅助向智能协作转变,覆盖从需求分析到代码实现、测试生成和自动化重构的各个环节;2)行业转型:通过深度优化大模型在复杂软件开发中的能力,可显著提升企业研发效率、软件质量与团队协作能力,助力数字化转型; 二、研究目标与创新价值 1、研究目标 1)提升大模型对复杂项目的语义理解与跨模块上下文建模能力,尤其是在长序列代码、跨文件依赖和复杂逻辑推理场景中的表现; 2)优化模型微调与自适应学习策略,通过引入多任务学习、强化学习(RL)和领域知识增强,构建具有高泛化能力和行业适配能力的大模型; 3)集成领域知识库与检索增强(RAG)技术,确保模型生成结果在行业标准、安全规范和合规性方面的准确性与可靠性; 4)构建自我进化的 AI Coding多智能体系统,基于强化学习、长期记忆、垂类模型训练、测试时计算等方法,持续优化任务规划、代码生成等能力,实现数据驱动的自我进化,从而实现复杂应用的端到端全栈开发; 2、创新价值 1)模型结构与预训练策略的突破:在通用预训练模型基础上,结合程序分析与语法语义建模,提升对大型软件项目的理解能力,尤其是在模块间交互和函数调用路径分析方面; 2)模型优化与自适应增强:通过多维度监督信号(代码质量、运行性能、测试覆盖率等),实现强化学习与在线反馈的动态调整,打造具备持续学习能力的大模型; 3)从工具辅助到全生命周期协作:以大模型为核心,推动需求到实现、测试到部署的智能化协作新范式,助力开发者在复杂工程项目中更高效地完成跨团队协作与长期维护; 4)领域知识与行业专属能力融入:通过引入行业领域知识库(如金融合规、医疗数据安全规范等),结合检索增强技术(RAG),确保生成代码符合行业标准,显著降低错误和安全隐患; 三、主要挑战与应用前景 1、长序列代码与复杂上下文建模:复杂软件项目中,代码文件可能达到数千行,存在跨模块调用和多层次依赖,模型如何在长序列输入下保持上下文一致性,是核心技术难点之一; 2、跨语言与多框架适配:现有模型大多针对单一语言优化,而企业项目往往涉及多语言(如 Python、C++、Java 等)和多框架(如 React、Django、Kubernetes)。如何提升模型的跨语言泛化能力成为重要课题; 3、领域知识缺失与安全合规风险:通用大模型缺乏行业特定知识,可能生成不符合行业规范或存在潜在漏洞的代码,需引入领域知识与合规规则进行优化和增强; 4、人机协作:针对新涌现的大模型技术和应用场景,研究下一代软件研发人机交互形式,推动AI驱动的交互形式的普及与发展。

更新于 2025-03-05北京
logo of bytedance
实习A104784

团队介绍:字节跳动Stone-Cross Platform团队成立于2023年,致力于开发业界前沿的应用框架,构建LLM驱动的前沿系统和基础设施,提升开发者和用户体验。 课题介绍: 随着AI大模型研究的不断发展,文本生成、多模态理解以及Agent规划能力有了巨大的提升和突破,以豆包多模态交互、OpenAI Operator、Deepseek-R1推理模型为典型案例,应用的构建以及交互方式迎来了巨大的机遇和变革。我们希望结合LLM/VLM模型的多模态感知、深度思考和AI Agent等能力,深入探索大模型在AI应用构建效率和为智能交互体验上的创新。 研究方向: 本课题旨在利用大模型技术开发智能应用交互框架,研究内容包括:围绕大模型设计应用框架,利用大模型提升应用构建效率,如UI理解及代码生成等;使用大模型来理解应用的多模态Context及用户意图,进行意图规划及推理执行,完成用户交互;改进编程语言的设计,使其容易被大语言模型理解,验证,实现编程语言的自动生成,和编程语言之间的相互转译,从而加速新编程语言生态的构建;通过该课题的研究,我们希望实现更加智能、便捷和高效的应用框架,推动AI驱动的应用交互的普及与发展。 1、参与大模型在应用框架中的算法研究,探索和优化模型Post-training、AI Agent等技术; 2、研究和开发智能UI交互技术,提升界面的智能化和个性化水平; 3、设计跨平台、高性能、大模型便于理解和生成的编程语言; 4、开发和优化意图规划和推理算法,提升应用的理解和响应能力; 5、探索多模态数据融合技术,解决复杂场景下的精准推理与决策问题; 6、整理研究数据,撰写技术报告和发表研究论文。

更新于 2025-02-27深圳
logo of bytedance
实习A38538

团队介绍:抖音内容理解团队负责抖音集团内容算法工作,业务覆盖抖音、今日头条、西瓜视频、剪映等业务,承接业务在内容理解、LLM应用、新业务方向探索等方向的工作。技术上涵盖了CV,NLP,音频,LLM等算法方向。团队承载业务需求同时还负责底层基础算法技术,推动如基础预训练模型、视频生成等学术和专利相关工作,负责为抖音各个技术方向提供长期有深度的技术支撑。得益于抖音集团业务数量庞大的多模态业务数据和业务需求,团队能够有资源和机会去做出行业领先的技术创新,用最新的技术去改变影响用户和改变行业格局。 1、课题背景:随着大模型技术在多模态内容理解领域的突破,内容特征已逐渐替代传统ID特征成为推荐系统的核心驱动力。然而当前系统面临三重挑战:(1)内容深度解析需求:短视频、直播、评论等场景需要同时处理文本、图像、音频等多模态数据,且需建模用户长短期兴趣与跨领域行为;(2)动态安全威胁:评论区涌现多模态越狱攻击(如隐晦图文组合提示词),传统单模态审核无法应对复杂对抗场景;(3)跨域迁移瓶颈:用户娱乐内容兴趣与电商消费需求间存在语义鸿沟,需建立可解释的跨域映射机制。 2、课题挑战:(1)多模态复杂性:用户行为涉及多模态交互(如视频+评论+购物),需统一框架实现内容理解与用户意图推理;(2)社区生态动态性:自然作者、各种机构、黑灰产等群体会互相交互产生大量复杂的多模态行为,要求算法能够快速准确的理解内容和交互的语义;(3)生态协同需求:DAU-GMV转化率存在成倍提升空间,需突破"娱乐到消费"的跨域兴趣建模技术;(4)技术整合价值:联合优化推荐、安全、跨域三大模块,可降低算力消耗并提升端到端效果。 3、研究方向:大语言模型、多模态大模型、内容理解、推荐系统。

更新于 2025-03-05北京
logo of bytedance
实习A85390

团队介绍:字节跳动剪映研发团队,主要支持剪映、醒图、Faceu 等多款国内外产品的研发工作,业务覆盖多元化影像创作场景,截止2021年6月,相关产品多次登顶国内外App Store 免费应用榜第一,并继续保持高速增长。加入我们,一起打造全球最受用户欢迎的影像创作产品。 课题介绍: 1、课题背景: 1)数字化营销时代,企业对高质量、多样化营销素材的需求呈爆发式增长。从社交媒体图文到短视频广告,从个性化推荐文案到多模态互动内容,营销场景的复杂化与用户需求的碎片化对素材生成效率、创意水平和精准度提出了更高要求。传统依赖人工策划与设计的模式成本高、周期长,难以满足实时化、动态化、规模化的业务需求。尽管生成式AI(AIGC)技术(如GPT等)已在文本、图像生成领域取得突破,但在营销场景中仍面临创意适配性差、多模态协同能力弱、品牌一致性难保障等瓶颈。本课题旨在研发“创作领域Agent”,通过智能技术实现从策略洞察到内容生产的全链路自动化,推动营销效率与效果的革命性升级。 2)随着大语言模型、多模态模型等大模型的成熟,通过视觉理解、语音识别、文本生成等AI大模型能力,提升视频剪辑效率,基于创作者的需求和创意,高效的创作出炫酷、个性化的视频成为了可能。当前行业虽已有部分智能剪辑工具,但大多局限于规则化操作,成片或缺乏对用户意图的理解,效果同质化,或缺乏成片逻辑与情感,机械堆砌素材。 本课题旨在研究适合视频剪辑的大模型技术,结合剪映平台的强大剪辑能力和效果,打造一个智能剪辑的智能体(Agent),赋能自媒体内容生产、影视工业化、广告营销等场景。 2、课题挑战: 1、创意与商业价值的平衡:AI生成内容易陷入同质化,需突破算法在品牌调性理解、用户情感共鸣、营销目标对齐等方面的局限,确保创意兼具新颖性与商业转化价值。 2、多模态动态协同:文本、图像、视频等模态的生成需实现语义与风格的跨模态对齐,且需支持动态组合与实时迭代(如根据用户反馈即时优化素材)。 3、复杂场景泛化能力:营销场景高度细分(如电商促销、品牌故事、危机公关),Agent需具备上下文感知与领域迁移能力,避免“一刀切”生成策略。 4、计算效率与资源限制:高分辨率视觉素材生成、多版本AB测试等场景对算力需求极高,需优化模型轻量化与推理速度,满足企业级部署的可行性。 5、伦理与合规风险:需解决版权争议(如AI生成素材的版权归属)、内容安全(如虚假宣传、文化敏感性)等问题,构建可信可控的生成框架。 6、视频数据复杂性远超图片和文字,巨量的用户素材,要通过大模型去精准理解,并与图片、音频、文字等多模态特征统一,对多模态模型理解能力和推理优化,提出了极高要求。 7、大模型对素材编排和剪辑的结果,可能偏离用户真实意图,既要避免输出模板化、同质化,又要结合用户个性化和创意,在风格、节奏等维度上加入“人性化创意”。 8、大参数模型训练成本高,推理慢,如何通过模型优化、工程优化等手段,给移动端、PC等终端用户极致的体验,也是课题的一大挑战。 职位描述: 1、负责剪映CapCut的AI视频编辑方向的Agent模型训练与评测,使用SFT/RLHF/Post-training等技术对视频创作进行领域知识建模; 2、提升视频创作Agent大模型的增强模型和安全能力的指令遵从能力、提升Pre-trained Model在视频创作的能力,构建行业领先的视频创作专家的智能Agent。

更新于 2025-02-24北京