字节跳动质量智能大模型算法工程师-质量技术-筋斗云人才计划
任职要求
1、获得博士学位,人工智能、计算机、数学相关专业优先; 2、优秀的代码能力、数据结构和基础算法功底,熟练Python(CV/NLP领域); 3、CV/NLP领域有扎实的理论基础,在ICCV/TPAMI/ACL/SIGIR等顶刊顶会上发表论…
工作职责
团队介绍:字节跳动质量技术团队,聚焦质量领域,提供一系列的稳定的、有效的、技术领先的质量产品和工具,支撑电商、抖音、头条、飞书等业务。当前,我们在积极的探索质量基建与大模型的结合,构建更高效、更智能的质量技术,非常期望有更多的人才加入,在质量内建、测试效能、自动化测试等领域取得前沿的技术突破。 课题介绍: 课题背景:随着大模型技术能力的不断发展,质量测试领域也迎来了新的机遇与挑战。传统测试基本采用手工+部分CR+编写部分核心自动化/单测用例的测试方法,主要受限于自动化/单测用例的生成维护成本、以及人员CR/测试水平的参差,在频繁变化的业务场景下很难实现高质量、全面提效的正向收益,想要全面提质提效,需要彻底改变原有测试技术框架。结合近2年大模型技术的快速发展,特别是近期发布的行业重量级LLM/VLM模型,使测试任务的自动生成、自动执行、效果及代码问题诊断成为可能,同时行业内陆续涌现多款智能化测试的商业产品,这一领域性探索有望彻底改变测试方式形态,实现全智能的AI质量保障新业态。 课题挑战: 1、智能生成:主要包括基于代码&需求文档,自动生成单元测试、功能测试用例,存在对代码、需求文档的理解、泛化推理能力弱,生成内容准确率低; 2、智能执行:主要包括自主智能遍历、测试任务智能执行,主要挑战在测试意图理解的操作路径探索、GUI理解的操作对象定位的高准确性; 3、智能检测:主要包括代码异常、功能效果异常检测,重点在基于上下游UI的异常检测、目标代码片段定位及结合调用链路及业务逻辑的缺陷挖掘的高准召。
团队介绍:字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。主要工作方向包括:1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战;2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力;3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你;4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新;5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。 课题介绍:随着大模型技术的快速发展,智能搜索领域迎来了新的机遇和挑战。传统搜索技术在面对海量数据、多模态信息以及用户复杂需求时,逐渐暴露出模型容量不足、语义理解能力有限、资源利用率低等问题。基于大模型的智能搜索构建旨在通过引入大模型技术,提升搜索系统的智能化水平,优化用户体验,并解决超大规模检索、复杂语义理解、资源高效利用等核心问题。具体目标包括: 1、探索大模型与排序算法的结合,提升个性化排序的精度和用户体验; 2、研究生成式检索算法,解决百亿乃至千亿级别候选库的超大规模检索问题; 3、利用大语言模型(LLM)提升复杂多义Query的搜索满意度。 1、参与搜索引擎(策略、模型)研发工作,支持抖音/今日头条/电商/番茄小说/红果短剧等具有数亿用户的产品,致力于为数亿用户提供数千亿精准搜索结果,打造极致的搜索体验; 2、探索前沿技术,探索大模型等创新技术在AI搜索场景的落地,参与搜索引擎、搜索大模型的改进,包括而不限于: 1)NLP、大模型:构建大规模高质量数据(数据建设、数据抓取与解析、数据合成等)、分词、NER,文本、多模态预训练、Query分析、基础相关性等,全链路结合应用机器学习/深度学习模型,探索搜索引擎与大模型、LLM、MLLM、多模态、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包含而不限于相关性、权威性、时效性、意图理解能力等;探索新的自然语言处理算法、信息检索技术、LLM适性索引、LLM相关性、生成式召回、排序大模型等,提高搜索引擎的准确性和智能化程度; 2)召回与排序:借助语义理解、个性化预估、机制设计等技术,解决超大规模的视频、商品、直播、POI等搜索业务下的召回、排序、重混排模型; 3)多模态、跨模态匹配技术:基于海量网页图文、抖音视频数据的大规模多模态预训练和视频分析技术,提升视觉搜索的使用体验;在搜索中结合CV+NLP深度学习技术,实现多模态、视频搜索、强大的语义理解和检索能力; 4)页面分析和摘要:从千亿视频/网页中提取最有价值的信息,进行结构化字段提取、智能摘要生成、转码等工作来优化搜索体验; 5)链接分析:从万亿链接中找出最有价值的网页,优化链接质量、索引质量、垃圾作弊识别、调度策略等。
团队介绍:广告业务原为商业产品与技术部门,为抖音集团的商业变现提供广告产品与技术,负责端到端大型广告系统建设,覆盖抖音、今日头条、西瓜视频、番茄小说、穿山甲等产品矩阵,践行"激发生意新可能"理念,致力于让营销更省心、更高效、更美好,推动商业的可持续增长,让不分体量、地域的企业及个体,都能通过数字化技术激发创造、驱动生意。连接广告主、用户及生态伙伴、成为开放共赢的全球最佳智能营销平台之一。在这里,你将投身建设面向未来的数字营销能力,接触到全球先进的商业产品架构、模型和算法,在互联网广告行业始终创新。 课题介绍: 1、核心技术架构: 1)下一代广告技术栈: 模型算法层:搭建基于强化学习的智能出价与流量预估系统,攻克深层转化场景下的数据稀疏、多源异构数据融合(延迟数据/埋点噪声/跨平台行为)等行业难题; 系统工程层:构建支持基于长序列特征的实时预估框架,研发支持动态创意组合的自动化投放引擎; AIGC融合层:建立文/图/视频多模态生成技术中台,实现从IP素材生成到智能投放的全链路闭环; 2)行业首创的AIGC解决方案: 正在搭建全球领先的"小说→漫剧"智能生产线,攻克三大技术堡垒: 多模态叙事引擎:研发支持角色一致性保持(Character-aware Diffusion)、分镜自动生成(Storyboard LLM)、动态运镜控制(Camera ControlNet)的复合型生成框架; 工业化工作流:构建支持分布式渲染、多版本AB测试、合规性审核的智能生产管线,实现日均千级素材产能; 投放增效系统:开发生成质量量化评估模型(QAGAN),建立素材生成-投放效果的反哺优化机制; 2、岗位挑战: 你将主导: 构建支持沿模型的混合推理框架,优化多卡并行下的生成效率; 设计跨模态对齐算法,提升文字指令到视觉元素的可控生成精度; 研发基于用户行为分析的智能素材变异系统,实现CTR提升30%+的个性化内容生成; 打造从内容生产到实时竞价的全自动化广告引擎; 3、我们期待这样的开拓者: 精通Diffusion Models技术栈,具有LoRA/ControlNet/T2I-Adapter等微调框架的实战调优经验; 熟悉多模态大模型(如VideoPoet、Sora等视频生成技术原理),具备跨模态表征学习研究背景; 拥有广告算法背景者优先,熟悉CVR预估、智能出价等核心模块与生成式AI的结合点; 出色的工程化能力,主导过至少一个完整AIGC项目的端到端落地(从模型训练到服务部署)。
团队介绍:商业信任与安全算法团队,聚焦于通过人工智能技术(包括但不限于NLP/CV/多模态/图/大模型)识别和治理问题广告内容和问题广告主,助力降低虚假宣传、不良暗示等内容发生概率,提升广告质量。该方向也是行业共同关注、长期研究的方向,在这里你可以基于平台能力及内容,深耕算法优化,为商业化各业务提供安全解决方案。 课题介绍:智能审核业务比较复杂,随着审核技术的不断演进,各个领域面临着新的风险问题和对抗形式,这对大模型的应用提出了新的挑战。例如,在审核业务中,涉及审核规则变更、长文本、长时序、多语言、少样本和AIGC生成对抗等问题时,现有的开源大模型表现往往不尽人意。因此,针对这些挑战,我们亟需研发专门针对智能审核的大模型,以提升其在治理中的有效性和适应性。特别的,针对业务特点,我们需要探索高质量的数据自动生成、高效的MOE Embedding、Auto-Prompt生成、高质量 COT输出、大模型知识蒸馏等。此外,该模型应能够满足审核业务的需求,实现高准确率的自主决策和可解释性的COT生成,显著减少误判。针对动态变化的审核规则变更,它能够通过RAG模块自动检索类似的审核案例,将复杂的审核规则变更分解为简单的原子任务,自动拆分出驳回和豁免原子任务,并自动调用相应的Tools来解决这些任务,从而建立“知道拒绝并且知道为何拒绝”的业内领先智能审核系统。最终,大模型智能审核系统的审核效果需要接近或者超过人工审核,往全机审的路线上演进。 1、模态融合能力:提升文本、音频、图像、视频和直播等多模态的细粒度理解能力,实现高准确率的自主决策和可解释性的COT生成; 2、Few-Shot能力:探索多语言、长时序和少样本问题,增强Few-Shot和Zero-Shot能力,针对多变的业务规则具备复杂指令和Auto-Prompt生成能力; 3、攻防对抗能力:研究AIGC图像视频的判别,增强审核大模型对隐晦、抽象的生成式内容的攻防对抗能力; 4、Agent能力:具备调用RAG模块,使用Tools,和Auto-Planning能力;提升大模型的动态推理和反思能力。
团队介绍:V-AI团队当前支持抖音直播、开放平台、V项目(AI分身/小火人等)业务方向,涵盖了自然语言处理、计算机视觉、图形学等技术领域,通过大模型技术来创造新的互动玩法、制作美术资产、提升研发运营效率等,当前已上线和开展中的项目包括直播大模型(助播/伴播/独播)、角色多模态对话大模型、研发智能助手、3D模型生成大模型、动作生成大模型等。 课题介绍: 背景:随着虚拟现实、增强现实、数字孪生等技术的快速应用,3D数字资产已成为构建沉浸式数字空间的核心要素。在影视动画、游戏开发、直播、社交等领域,3D模型与3D动作的需求呈现爆发式增长。然而,传统3D内容生产高度依赖人工建模与动作捕捉技术,存在效率低、成本高、创作门槛高等瓶颈,难以满足直播等场景中大规模、高保真、多样化、高频迭代的3D内容需求。近年来,以生成式人工智能(AIGC)为代表的大模型技术在2D图像与视频生成领域取得突破性进展,但在3D内容生成领域仍面临表征复杂、多模态数据稀缺、物理规律约束严格等难题。如何将大模型技术与3D生成任务深度融合,实现“文本/图像到3D模型”、“文本/语音到动作”的高质量生成,形成建模+驱动的一站式美术资产生成管线以适配直播场景下资产迭代速度快,品质要求高的需求是当前的重要研究内容。 课题挑战: 传统方法依赖人工建模工具或程序化生成算法,存在生成效率与创作自由度之间的固有矛盾。AI技术虽然能很好地弥补人工生成效率不足的问题,但仍然存在如下挑战 1. 表征困难:与一维文本和二维图像可以自然地实现结构化表征不同,3D模型由于其多模态(如几何、纹理、材质等)、结构复杂和高维度等特性,使得其表征更为复杂。而3D动作又与物理世界紧密相关,且动态复杂度高。因此,如何高效地表征3D几何形状和3D动作,同时确保高品质的生成,仍然是亟需突破的课题。 2. 生成困难:模型生成需同时保障结构完整性、拓扑合理性和细节丰富性;动作生成需兼顾运动多样性、物理约束与时空连续性。现有方法易出现模型畸变、贴图瑕疵、动作力度不足和多样性差等问题。 3. 数据不足:3D数据标注成本高、多模态对齐难度大,且现有公开数据集规模有限,导致大模型训练面临数据不足的问题;如何把相关模态数据(图像、视频)利用起来,提升3D模型和3D动作的生成品质也是当前的重大挑战。 4. 评估体系不完善:缺乏统一的3D生成质量量化指标,现有评价多依赖人工主观判断,难以客观衡量生成的几何精度、动作自然度与多模态语义一致性,因此建立完善、客观、可量化的评价体系是保障技术迭代的关键基石。 1、负责抖音、抖音直播及相关产品的大语言模型/多模态大模型/AIGC算法研发,如数字人、3D生成、动作生成、智能对话等相关工作; 2、负责关键场景的算法优化,构建高质量的模型和Agent系统,提升业务效果; 3、跟踪AI前沿技术进展,推动前沿技术的产品化落地。