logo of bytedance

字节跳动生成式大模型算法实习生-剪映-筋斗云人才计划(北京/深圳)

实习兼职A239481地点:北京状态:招聘

任职要求


1、2026届及以后毕业,博士在读,计算机、软件、人工智能、数学等相关专业优先;
2、扎实的机器学习基础,深入理解多模态理解及LLM等相关技术,具备良好的数理基础;
3、熟练掌握相关机器学习框架和工程框架,具备扎实的编码能力;
4、在…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍:负责影像业务剪映、醒图等创作工具的增长、内容分发和商业化的算法,以及数据科学相关工作,致力于激发用户创作灵感、优化创作效率和提高所创作内容的价值,并完成增长与商业化变现。

课题介绍:剪映CapCut创作工具需要更自动化的扩大模版与素材的供给,降低创作过程的难度,本课题旨在通过AIGC根据当前热点,推荐,搜索等分发线索自动生成模版、素材、音乐,大规模补充模版与素材供给,为用户提供更多创作灵感,以及根据用户上传素材,AIGC辅助自动成片。

1、基于多模态大模型(LLM/视觉/音频)技术,研发自动化内容生成系统,通过分析热点、搜索趋势及用户行为数据,构建动态生成模型,实现视频模板、风格化素材、场景适配音乐的规模化生产,提升创作工具的内容供给多样性;
2、研究用户意图深度理解模型,通过用户上传的原始素材(图片、视频片段、文字描述)分析创作目标,构建端到端的自动成片Pipeline,实现镜头分割、转场特效生成、字幕匹配、音乐适配的全流程AI化;
3、设计跨模态对齐算法,解决图文/视频/音乐的多维度语义匹配问题。
包括英文材料
机器学习+
大模型+
ICML+
还有更多 •••
相关职位

logo of bytedance
实习A85390

团队介绍:字节跳动剪映研发团队,主要支持剪映、醒图、Faceu 等多款国内外产品的研发工作,业务覆盖多元化影像创作场景,截止2021年6月,相关产品多次登顶国内外App Store 免费应用榜第一,并继续保持高速增长。加入我们,一起打造全球最受用户欢迎的影像创作产品。 课题介绍: 1、课题背景: 1)数字化营销时代,企业对高质量、多样化营销素材的需求呈爆发式增长。从社交媒体图文到短视频广告,从个性化推荐文案到多模态互动内容,营销场景的复杂化与用户需求的碎片化对素材生成效率、创意水平和精准度提出了更高要求。传统依赖人工策划与设计的模式成本高、周期长,难以满足实时化、动态化、规模化的业务需求。尽管生成式AI(AIGC)技术(如GPT等)已在文本、图像生成领域取得突破,但在营销场景中仍面临创意适配性差、多模态协同能力弱、品牌一致性难保障等瓶颈。本课题旨在研发“创作领域Agent”,通过智能技术实现从策略洞察到内容生产的全链路自动化,推动营销效率与效果的革命性升级。 2)随着大语言模型、多模态模型等大模型的成熟,通过视觉理解、语音识别、文本生成等AI大模型能力,提升视频剪辑效率,基于创作者的需求和创意,高效的创作出炫酷、个性化的视频成为了可能。当前行业虽已有部分智能剪辑工具,但大多局限于规则化操作,成片或缺乏对用户意图的理解,效果同质化,或缺乏成片逻辑与情感,机械堆砌素材。 本课题旨在研究适合视频剪辑的大模型技术,结合剪映平台的强大剪辑能力和效果,打造一个智能剪辑的智能体(Agent),赋能自媒体内容生产、影视工业化、广告营销等场景。 2、课题挑战: 1、创意与商业价值的平衡:AI生成内容易陷入同质化,需突破算法在品牌调性理解、用户情感共鸣、营销目标对齐等方面的局限,确保创意兼具新颖性与商业转化价值。 2、多模态动态协同:文本、图像、视频等模态的生成需实现语义与风格的跨模态对齐,且需支持动态组合与实时迭代(如根据用户反馈即时优化素材)。 3、复杂场景泛化能力:营销场景高度细分(如电商促销、品牌故事、危机公关),Agent需具备上下文感知与领域迁移能力,避免“一刀切”生成策略。 4、计算效率与资源限制:高分辨率视觉素材生成、多版本AB测试等场景对算力需求极高,需优化模型轻量化与推理速度,满足企业级部署的可行性。 5、伦理与合规风险:需解决版权争议(如AI生成素材的版权归属)、内容安全(如虚假宣传、文化敏感性)等问题,构建可信可控的生成框架。 6、视频数据复杂性远超图片和文字,巨量的用户素材,要通过大模型去精准理解,并与图片、音频、文字等多模态特征统一,对多模态模型理解能力和推理优化,提出了极高要求。 7、大模型对素材编排和剪辑的结果,可能偏离用户真实意图,既要避免输出模板化、同质化,又要结合用户个性化和创意,在风格、节奏等维度上加入“人性化创意”。 8、大参数模型训练成本高,推理慢,如何通过模型优化、工程优化等手段,给移动端、PC等终端用户极致的体验,也是课题的一大挑战。 职位描述: 1、负责剪映CapCut的AI视频编辑方向的Agent模型训练与评测,使用SFT/RLHF/Post-training等技术对视频创作进行领域知识建模; 2、提升视频创作Agent大模型的增强模型和安全能力的指令遵从能力、提升Pre-trained Model在视频创作的能力,构建行业领先的视频创作专家的智能Agent。

更新于 2025-02-24北京
logo of bytedance
实习A26382A

团队介绍:字节跳动基础架构团队主要负责公司云基础建设,支撑着字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等,同时也负责支持火山引擎公有云业务。迄今为止,我们通过云技术管理着百万量级的服务器构成的超大数据中心;我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务;我们还通过丰富的存储产品矩阵,如NewSQL、NoSQL、云存储等治理EB级的数据资产;我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先的云基础设施,为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。 课题介绍: 课题背景: 在大语言模型蓬勃发展的当下,本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究,旨在全面提升云服务在 AI 场景下的综合性能与效率。 课题挑战: 1、新一代搜索型数据库:当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级,突破关键词匹配限制,以满足学术研究等领域对语义理解和精准检索的要求;具备处理和融合多模态数据的能力,应对互联网图像、音视频多模态数据的爆发式增长;优化检索过程,更好地支持检索增强生成(RAG)技术,为语言模型提供优质信息;同时,需应对各行业海量数据存储检索压力,提升搜索实时性与跨语言能力; 2、面向LLM的下一代智能云基础架构:一方面,自动化和智能化管理基础架构各系统生命周期,深度融合人工智能与基础架构关键系统,建设大规模LLM for Infra 服务;另一方面,针对新涌现的LLM应用场景,在基础架构各个领域进行前沿技术创新,与字节工程团队合作,设计和开发高性价比且简单易用的下一代大模型基础架构,为火山引擎奠定技术与业务增长基础; 3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究:大模型时代数据量爆炸式增长,当前文件系统多采用中心化元数据架构,难以水平扩展,限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS(性能租户隔离和目录隔离)、故障处理(故障域隔离和故障无损)以及研发高性能客户端(用户态文件协议和DPU卸载)等关键技术展开; 4、面向大规模AI集群的高速通信和稳定性优化:随着大模型训练/推理业务规模增长,底层高速网络面临挑战。一方面,需解决GPU服务器硬件资源利用率偏低问题,包括充分利用CPU和内存空闲资源,以及研发计算通信融合的高性能集合通信库,实现通信算子与计算任务的深度融合;另一方面,在稳定性方面,提升故障快速发现和根因定位能力,解决网络吞吐不达预期等典型故障。

更新于 2025-02-28杭州
logo of bytedance
实习A40872A

团队介绍:字节跳动剪映研发团队,主要支持剪映、醒图、Faceu 等多款国内外产品的研发工作,业务覆盖多元化影像创作场景,截止2021年6月,相关产品多次登顶国内外App Store 免费应用榜第一,并继续保持高速增长。加入我们,一起打造全球最受用户欢迎的影像创作产品。 课题背景: 1、数字化营销时代,企业对高质量、多样化营销素材的需求呈爆发式增长。从社交媒体图文到短视频广告,从个性化推荐文案到多模态互动内容,营销场景的复杂化与用户需求的碎片化对素材生成效率、创意水平和精准度提出了更高要求。传统依赖人工策划与设计的模式成本高、周期长,难以满足实时化、动态化、规模化的业务需求。尽管生成式AI(AIGC)技术(如GPT等)已在文本、图像生成领域取得突破,但在营销场景中仍面临创意适配性差、多模态协同能力弱、品牌一致性难保障等瓶颈。本课题旨在研发“创作领域Agent”,通过智能技术实现从策略洞察到内容生产的全链路自动化,推动营销效率与效果的革命性升级。 2、随着大语言模型、多模态模型等大模型的成熟,通过视觉理解、语音识别、文本生成等AI大模型能力,提升视频剪辑效率,基于创作者的需求和创意,高效的创作出炫酷、个性化的视频成为了可能。当前行业虽已有部分智能剪辑工具,但大多局限于规则化操作,成片或缺乏对用户意图的理解,效果同质化,或缺乏成片逻辑与情感,机械堆砌素材。 本课题旨在研究适合视频剪辑的大模型技术,结合剪映平台的强大剪辑能力和效果,打造一个智能剪辑的智能体(Agent),赋能自媒体内容生产、影视工业化、广告营销等场景。 课题挑战: 1、创意与商业价值的平衡:AI生成内容易陷入同质化,需突破算法在品牌调性理解、用户情感共鸣、营销目标对齐等方面的局限,确保创意兼具新颖性与商业转化价值。 2、多模态动态协同:文本、图像、视频等模态的生成需实现语义与风格的跨模态对齐,且需支持动态组合与实时迭代(如根据用户反馈即时优化素材)。 3、复杂场景泛化能力:营销场景高度细分(如电商促销、品牌故事、危机公关),Agent需具备上下文感知与领域迁移能力,避免“一刀切”生成策略。 4、计算效率与资源限制:高分辨率视觉素材生成、多版本AB测试等场景对算力需求极高,需优化模型轻量化与推理速度,满足企业级部署的可行性。 5、伦理与合规风险:需解决版权争议(如AI生成素材的版权归属)、内容安全(如虚假宣传、文化敏感性)等问题,构建可信可控的生成框架。 6、视频数据复杂性远超图片和文字,巨量的用户素材,要通过大模型去精准理解,并与图片、音频、文字等多模态特征统一,对多模态模型理解能力和推理优化,提出了极高要求。 7、大模型对素材编排和剪辑的结果,可能偏离用户真实意图,既要避免输出模板化、同质化,又要结合用户个性化和创意,在风格、节奏等维度上加入“人性化创意”。 8、大参数模型训练成本高,推理慢,如何通过模型优化、工程优化等手段,给移动端、PC等终端用户极致的体验,也是课题的一大挑战。 职位描述: 1、负责剪映CapCut的AI视频编辑方向的Agent模型训练与评测,使用SFT/RLHF/Post-training等技术对视频创作进行领域知识建模; 2、提升视频创作Agent大模型的增强模型和安全能力的指令遵从能力、提升Pre-trained Model在视频创作的能力,构建行业领先的视频创作专家的智能Agent。

更新于 2025-02-24杭州
logo of bytedance
实习A40550

团队介绍:字节跳动推荐架构团队,负责字节跳动旗下相关产品的推荐系统架构的设计和开发,保障系统稳定和高可用;负责在线服务、离线数据流性能优化,解决系统瓶颈,降低成本开销;抽象系统通用组件和服务,建设推荐中台、数据中台,支撑新产品快速孵化以及为ToB赋能。 课题介绍: 随着技术的不断发展和业务场景的日益复杂,推荐系统面临着诸多严峻挑战: 一方面,推荐系统自身的复杂性急剧增加。大量推荐策略不断演进迭代、且系统状态动态变化,但缺乏有效手段自动跟踪评估策略有效性并下线低 ROI 策略,导致系统存在较多低效策略。同时,推荐系统依赖多种基础组件,其复杂负载模型给底层组件参数配置和性能调优带来巨大困难,日常开发迭代中的问题排查等工作消耗大量人力,亟需提升开发效率、降低人力成本。 另一方面,随着电商行业等领域的蓬勃发展,传统推荐系统在多样性、创新性和个性化方面的短板愈发凸显,难以满足用户日益增长的多元需求。生成式人工智能技术虽带来新突破,但在实际应用中面临成本效率、全域数据协同、数据隐私与安全以及技术变革应对等诸多难题。 因此,如何通过技术手段,在如下几个子领域完成突破,是持续提升用户体验和产品竞争力的关键: 1、策略管理与优化:构建一套智能化系统,实现推荐策略的规范化定义、长期及离线评估、无效策略自动识别与下线,以及相关代码配置的下线; 2、自适应调优与故障诊断:针对推荐系统多样化业务负载,利用大模型能力完成系统及底层组件的参数和配置调优,并探索自适应故障诊断方案,提供全局视角的故障追踪、定位和分析能力; 3、成本与效率平衡:在推荐系统应用生成式技术时,解决模型训练和运行的高成本问题,平衡成本与效率,在有限资源下实现高效推荐; 4、全域数据处理:应对电商等横向全域场景下海量异构数据,提升和保障数据质量与准确性,标准化供给数据给全域推荐模型,并实现低成本跨端服务,同时,确保数据隐私与安全,合规使用数据。

更新于 2025-03-03北京