logo of bytedance

字节跳动智能系统研究实习生-基础架构-筋斗云人才计划

实习兼职A65469A地点:深圳状态:招聘

任职要求


1、2026届及之后毕业,博士在读,优先考虑人工智能、计算机科学、数学相关专业;
2、拥有扎实的信息检索数据挖掘机器学习、计算机网络等相关领域理论基础,精通计算机网络和网络编程,熟练掌握至少一门主流编程语言,如C/C++、Python、Go等,具备优秀的代码能力、数据结构和基础算法功底;
3、针对不同研究方向,需具备相应能力,如能够独立完成复杂搜索任务的设计与开发;有LLM和基础架构相关研究背景;能完成研究点的设计文档、独立交付件、演示Demo;熟悉当前高性能网络和系统领域的最新进展,包括R…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍:字节跳动基础架构团队主要负责公司云基础建设,支撑着字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等,同时也负责支持火山引擎公有云业务。迄今为止,我们通过云技术管理着百万量级的服务器构成的超大数据中心;我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务;我们还通过丰富的存储产品矩阵,如NewSQL、NoSQL、云存储等治理EB级的数据资产;我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先的云基础设施,为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。
课题介绍:
课题背景:
在大语言模型蓬勃发展的当下,本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究,旨在全面提升云服务在 AI 场景下的综合性能与效率。
课题挑战:
1、新一代搜索型数据库:当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级,突破关键词匹配限制,以满足学术研究等领域对语义理解和精准检索的要求;具备处理和融合多模态数据的能力,应对互联网图像、音视频多模态数据的爆发式增长;优化检索过程,更好地支持检索增强生成(RAG)技术,为语言模型提供优质信息;同时,需应对各行业海量数据存储检索压力,提升搜索实时性与跨语言能力;
2、面向LLM的下一代智能云基础架构:一方面,自动化和智能化管理基础架构各系统生命周期,深度融合人工智能与基础架构关键系统,建设大规模LLM for Infra 服务;另一方面,针对新涌现的LLM应用场景,在基础架构各个领域进行前沿技术创新,与字节工程团队合作,设计和开发高性价比且简单易用的下一代大模型基础架构,为火山引擎奠定技术与业务增长基础;
3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究:大模型时代数据量爆炸式增长,当前文件系统多采用中心化元数据架构,难以水平扩展,限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS(性能租户隔离和目录隔离)、故障处理(故障域隔离和故障无损)以及研发高性能客户端(用户态文件协议和DPU卸载)等关键技术展开;
4、面向大规模AI集群的高速通信和稳定性优化:随着大模型训练/推理业务规模增长,底层高速网络面临挑战。一方面,需解决GPU服务器硬件资源利用率偏低问题,包括充分利用CPU和内存空闲资源,以及研发计算通信融合的高性能集合通信库,实现通信算子与计算任务的深度融合;另一方面,在稳定性方面,提升故障快速发现和根因定位能力,解决网络吞吐不达预期等典型故障。
包括英文材料
信息检索+
数据挖掘+
机器学习+
网络编程+
C+
C+++
还有更多 •••
相关职位

logo of bytedance
实习A69475

团队介绍:AI Coding团队致力于探索LLM在软件开发全生命周期的应用,支持MarsCode、Trae等代码智能产品中代码补全、智能编辑、程序debug以及代码修复等核心AI功能的全链路模型优化。欢迎对大模型、Agent技术和开发者工具体系感兴趣、对技术有追求的同学加入,共同成长! 课题介绍: 一、课题背景与研究动机 1、复杂软件工程项目的挑战与需求:随着企业业务需求的快速增长,软件项目规模持续扩大,系统架构日趋复杂,跨语言、多框架、多平台开发成为常态。开发团队在应对代码理解、跨模块协作、版本演化和长期维护等问题时,效率与质量面临双重挑战; 2、大模型在编程领域的潜力与不足:大规模语言模型在代码生成、补全和文档生成等任务上已展现强大能力,推动了智能化开发工具的初步落地。然而,在应对复杂软件工程项目时,现有模型在长序列建模、上下文一致性、跨文件依赖理解及代码质量保障方面仍有明显不足; 3、技术与产业机遇:1)范式变革:大模型有望成为软件开发全流程的重要参与者,推动从工具辅助向智能协作转变,覆盖从需求分析到代码实现、测试生成和自动化重构的各个环节;2)行业转型:通过深度优化大模型在复杂软件开发中的能力,可显著提升企业研发效率、软件质量与团队协作能力,助力数字化转型; 二、研究目标与创新价值 1、研究目标 1)提升大模型对复杂项目的语义理解与跨模块上下文建模能力,尤其是在长序列代码、跨文件依赖和复杂逻辑推理场景中的表现; 2)优化模型微调与自适应学习策略,通过引入多任务学习、强化学习(RL)和领域知识增强,构建具有高泛化能力和行业适配能力的大模型; 3)集成领域知识库与检索增强(RAG)技术,确保模型生成结果在行业标准、安全规范和合规性方面的准确性与可靠性; 4)构建自我进化的 AI Coding多智能体系统,基于强化学习、长期记忆、垂类模型训练、测试时计算等方法,持续优化任务规划、代码生成等能力,实现数据驱动的自我进化,从而实现复杂应用的端到端全栈开发; 2、创新价值 1)模型结构与预训练策略的突破:在通用预训练模型基础上,结合程序分析与语法语义建模,提升对大型软件项目的理解能力,尤其是在模块间交互和函数调用路径分析方面; 2)模型优化与自适应增强:通过多维度监督信号(代码质量、运行性能、测试覆盖率等),实现强化学习与在线反馈的动态调整,打造具备持续学习能力的大模型; 3)从工具辅助到全生命周期协作:以大模型为核心,推动需求到实现、测试到部署的智能化协作新范式,助力开发者在复杂工程项目中更高效地完成跨团队协作与长期维护; 4)领域知识与行业专属能力融入:通过引入行业领域知识库(如金融合规、医疗数据安全规范等),结合检索增强技术(RAG),确保生成代码符合行业标准,显著降低错误和安全隐患; 三、主要挑战与应用前景 1、长序列代码与复杂上下文建模:复杂软件项目中,代码文件可能达到数千行,存在跨模块调用和多层次依赖,模型如何在长序列输入下保持上下文一致性,是核心技术难点之一; 2、跨语言与多框架适配:现有模型大多针对单一语言优化,而企业项目往往涉及多语言(如 Python、C++、Java 等)和多框架(如 React、Django、Kubernetes)。如何提升模型的跨语言泛化能力成为重要课题; 3、领域知识缺失与安全合规风险:通用大模型缺乏行业特定知识,可能生成不符合行业规范或存在潜在漏洞的代码,需引入领域知识与合规规则进行优化和增强; 4、人机协作:针对新涌现的大模型技术和应用场景,研究下一代软件研发人机交互形式,推动AI驱动的交互形式的普及与发展。

更新于 2025-03-05北京
logo of bytedance
实习A147566A

团队介绍:字节跳动搜索团队主要负责抖音、今日头条、西瓜视频等产品的搜索工程、算法创新和架构研发工作。我们的职责是用前沿的技术去打造一个用户体验佳、信息效率高的搜索引擎产品。我们的愿景是做一款用户首选的搜索引擎,我们的使命是可以充分整合内容,高效连接人与信息。 团队主要负责抖音、今日头条、西瓜视频、问答和百科等产品的业务研发和架构研发工作。 我们使用前沿的前端、客户端和服务端技术赋能于搜索业务的快速迭代,并在技术上不断创新和突破。同时专注于大流量、高并发、低延时的搜索系统的构建,在性能优化上,追求从内存、Disk等优化到业务架构和网络协议的创新探索,在迭代效能上不断探索容器化、动态化、搭建化等方案的创新,技术氛围强,充分给同学们提供自我成长的机会。 1、参与ByteDance搜索引擎研发工作,用前沿的机器学习深度学习算法、海量的数据,做激动人心的技术、给用户更好的搜索体验; 2、参与抖音/电商/生活服务等核心产品的搜索研发工作,致力于为数亿用户提供数千亿精准搜索结果,打造极致的搜索体验; 3、参与搜索核心算法改进,可选的方向包括: (1)NLP:利用LLM等技术,研发新的自然语言处理算法和信息检索技术,提高搜索引擎的准确性和智能化程度。 (2)召回与排序:借助语义理解、个性化预估、机制设计等技术,解决超大规模的视频、商品、直播、POI等搜索业务下的召回、排序、重混排模型; (3)多模态:基于海量网页图文、抖音视频数据的大规模多模态预训练和视频分析技术,提升视觉搜索的使用体验; (4)页面分析和摘要:从千亿视频/网页中提取最有价值的信息,进行结构化字段提取、智能摘要生成、转码等工作来优化搜索体验; (5)链接分析:从万亿链接中找出最有价值的网页,优化链接质量、索引质量、垃圾作弊识别、调度策略等。 课题介绍:随着大模型技术的快速发展,智能搜索领域迎来了新的机遇和挑战。传统搜索技术在面对海量数据、多模态信息以及用户复杂需求时,逐渐暴露出模型容量不足、语义理解能力有限、资源利用率低等问题。基于大模型的智能搜索构建旨在通过引入大模型技术,提升搜索系统的智能化水平,优化用户体验,并解决超大规模检索、复杂语义理解、资源高效利用等核心问题。具体目标包括: 1、探索大模型与排序算法的结合,提升个性化排序的精度和用户体验; 2、研究生成式检索算法,解决百亿乃至千亿级别候选库的超大规模检索问题; 3、利用大语言模型(LLM)提升复杂多义Query的搜索满意度; 4、构建高性能、低资源消耗的大规模批流一体检索和计算系统,提升资源利用率。 1、个性化排序:传统排序算法难以充分利用多模态信息(如文本、图像、视频等),且模型复杂度有限,无法满足用户对精准化和个性化搜索的需求; 2、超大规模检索:传统判别式模型在千亿级别候选库的检索中,面临模型容量不足、索引效率低下等问题,亟需新一代检索算法; 3、复杂Query理解:用户搜索需求日益复杂,传统搜索引擎难以准确理解长难句、多义Query的语义,导致搜索结果满意度低; 4、资源利用率:搜索系统存储和计算分离的架构导致资源利用率低,如何在保证性能的同时优化资源使用成为关键问题。

更新于 2025-04-21珠海
logo of bytedance
实习A85390

团队介绍:字节跳动剪映研发团队,主要支持剪映、醒图、Faceu 等多款国内外产品的研发工作,业务覆盖多元化影像创作场景,截止2021年6月,相关产品多次登顶国内外App Store 免费应用榜第一,并继续保持高速增长。加入我们,一起打造全球最受用户欢迎的影像创作产品。 课题介绍: 1、课题背景: 1)数字化营销时代,企业对高质量、多样化营销素材的需求呈爆发式增长。从社交媒体图文到短视频广告,从个性化推荐文案到多模态互动内容,营销场景的复杂化与用户需求的碎片化对素材生成效率、创意水平和精准度提出了更高要求。传统依赖人工策划与设计的模式成本高、周期长,难以满足实时化、动态化、规模化的业务需求。尽管生成式AI(AIGC)技术(如GPT等)已在文本、图像生成领域取得突破,但在营销场景中仍面临创意适配性差、多模态协同能力弱、品牌一致性难保障等瓶颈。本课题旨在研发“创作领域Agent”,通过智能技术实现从策略洞察到内容生产的全链路自动化,推动营销效率与效果的革命性升级。 2)随着大语言模型、多模态模型等大模型的成熟,通过视觉理解、语音识别、文本生成等AI大模型能力,提升视频剪辑效率,基于创作者的需求和创意,高效的创作出炫酷、个性化的视频成为了可能。当前行业虽已有部分智能剪辑工具,但大多局限于规则化操作,成片或缺乏对用户意图的理解,效果同质化,或缺乏成片逻辑与情感,机械堆砌素材。 本课题旨在研究适合视频剪辑的大模型技术,结合剪映平台的强大剪辑能力和效果,打造一个智能剪辑的智能体(Agent),赋能自媒体内容生产、影视工业化、广告营销等场景。 2、课题挑战: 1、创意与商业价值的平衡:AI生成内容易陷入同质化,需突破算法在品牌调性理解、用户情感共鸣、营销目标对齐等方面的局限,确保创意兼具新颖性与商业转化价值。 2、多模态动态协同:文本、图像、视频等模态的生成需实现语义与风格的跨模态对齐,且需支持动态组合与实时迭代(如根据用户反馈即时优化素材)。 3、复杂场景泛化能力:营销场景高度细分(如电商促销、品牌故事、危机公关),Agent需具备上下文感知与领域迁移能力,避免“一刀切”生成策略。 4、计算效率与资源限制:高分辨率视觉素材生成、多版本AB测试等场景对算力需求极高,需优化模型轻量化与推理速度,满足企业级部署的可行性。 5、伦理与合规风险:需解决版权争议(如AI生成素材的版权归属)、内容安全(如虚假宣传、文化敏感性)等问题,构建可信可控的生成框架。 6、视频数据复杂性远超图片和文字,巨量的用户素材,要通过大模型去精准理解,并与图片、音频、文字等多模态特征统一,对多模态模型理解能力和推理优化,提出了极高要求。 7、大模型对素材编排和剪辑的结果,可能偏离用户真实意图,既要避免输出模板化、同质化,又要结合用户个性化和创意,在风格、节奏等维度上加入“人性化创意”。 8、大参数模型训练成本高,推理慢,如何通过模型优化、工程优化等手段,给移动端、PC等终端用户极致的体验,也是课题的一大挑战。 职位描述: 1、负责剪映CapCut的AI视频编辑方向的Agent模型训练与评测,使用SFT/RLHF/Post-training等技术对视频创作进行领域知识建模; 2、提升视频创作Agent大模型的增强模型和安全能力的指令遵从能力、提升Pre-trained Model在视频创作的能力,构建行业领先的视频创作专家的智能Agent。

更新于 2025-02-24北京
logo of bytedance
实习A232250

团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok研发团队,旨在实现TikTok业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。在这里,团队专业且纯粹,合作氛围平等且轻松。目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 为什么加入我们 与团队共同激发创造:创造是 TikTok的核心。不管对于TikTok产品还是团队本身,我们都希望能激发更多想象力,为自己、平台、我们所服务的社区以及社会带来更多价值和影响。 在有挑战的事中成长:在TikTok,你能够参与非常有挑战性的项目,一起做出突破行业、有全球影响力的事。这里有数以亿计的用户,在等你用新技术、新想法为他们带来新的体验。我们从不安于现状,对我们来说,每一个挑战,无论多么困难,都是一个学习、创新、和成长的机会。 工作方式和文化:我们鼓励务实解决实际问题、在每件事上追求极致,希望大家始终像“创业第一天”那样做事。
公司文化多元兼容,同事之间像同学一样平等相处,机制敏捷灵活,希望更好地激发每个人的创造力。 优秀的人能获得认可与回报:优秀人才能够和公司共同成长,什么时候加入都不晚。我们也进一步加大了激励区分度,让优秀的人得到认可和回报、承担更多重要项目,充分发挥潜能,脱颖而出。 欢迎加入我们! 课题介绍: TikTok作为全球领先的短视频平台,面临新用户数据稀疏导致的个性化推荐不足、直播推荐时效性要求高、用户兴趣多样性维护困难以及电商推荐系统链路复杂等多重挑战。传统推荐方法依赖历史行为建模,难以解决新用户冷启动问题,且直播推荐需在极短窗口期内(通常30分钟内)实时捕捉内容动态变化(如主播互动、流量波动),这对系统的实时感知与快速决策能力提出更高要求。此外,单列沉浸式场景放大了多样性问题,需平衡多峰兴趣学习与探索引发的内容穿越风险。当前电商推荐系统采用多阶段漏斗架构(召回-排序-混排),存在链路不一致、维护成本高、过度依赖短期价值预测等问题,导致用户易陷入内容同质化疲劳。 针对上述痛点,项目提出结合大语言模型(LLM)和大模型技术实现突破:一方面利用LLM的海量知识储备与Few-shot推理能力,通过注册信息与外部知识推理新用户潜在意图,缓解冷启动问题;另一方面,在社交偏好建模中融合GNN与用户全生命周期行为序列,提升兴趣预测精准度。同时,探索大模型的泛化能力、长上下文感知及端到端建模优势,简化电商推荐链路,增强实时动态适应性与兴趣探索能力,最终实现系统更简洁、推荐更精准、用户体验与留存双提升的目标,推动业务可持续增长。 1、负责TikTok最核心的业务推荐算法工作,与来自国内外顶级名校、有丰富业界经验的同学合作,共同搭建行业顶尖的推荐系统,为用户提供一流的产品体验; 2、将最前沿的机器学习技术应用到国际化短视频的核心场景业务,包括混排/排序/多目标/召回/冷启动/探索/多样性/内容理解等等场景,不断优化用户体验,促进业务发展; 3、研究方向包含且不局限于:深度学习、图神经网络、多任务学习、排序学习、模型压缩和加速、多模态技术等,结合业务的实际问题来做好技术的探索和研究; 4、和产品、运营团队紧密合作,通过对产品和用户的深入理解和分析,制定算法策略促进短视频生态的长期繁荣发展。

更新于 2025-03-04上海