快手音视频策略算法实习生
任职要求
1、本科及以上学历, 数学、计算机、统计学相关背景; 2、对统计学、机器学习、深度学习有较深理解,有较强的模型设计与优化能力; 3、对大模型应用(包括fine tune)有一定了解优先; 4、熟练使用SQL,有R或者Python的编程经验,对于AB测试、实验评估、因果推断有实际工作经验、思考总结者尤佳; 5、具有良好的沟通能力,快速的学习能力,以及严谨的逻辑思维能力; 6、对短视频/直播领域的产品、技术知识有一定了解优先。
工作职责
1、负责挖掘海量用户数据,基于因果模型、机器学习模型等框架进行基础体验画像建设,包括但不限于 用户 x 内容 x 场景 的清晰度/流畅度/低延迟 偏好画像等;通过精准刻画用户基础体验属性,驱动音视频个性化策略下发; 2、负责构建带宽曲线预测、视频热度预测等时序模型,驱动音视频资源调度优化(e.g.,视频热度时序建模); 3、负责探索大模型在时序预测、资源分配、人群画像偏好等场景的应用和落地; 4、负责与内外部团队合作,包括商业化、电商等,制定基于用户价值的体验和成本优化策略,并推动优化上线。
1、负责视频 & 图片画质评测,输出主客观画质评测报告 2、负责竞品调研分析,指导音视频策略优化改进 3、参与图像算法的开发与优化,建立画质评测规范以及验收标准
团队介绍:字节跳动搜索团队主要负责抖音、今日头条、西瓜视频等产品的搜索工程、算法创新和架构研发工作。我们的职责是用前沿的技术去打造一个用户体验佳、信息效率高的搜索引擎产品。我们的愿景是做一款用户首选的搜索引擎,我们的使命是可以充分整合内容,高效连接人与信息。 团队主要负责抖音、今日头条、西瓜视频、问答和百科等产品的业务研发和架构研发工作。 我们使用前沿的前端、客户端和服务端技术赋能于搜索业务的快速迭代,并在技术上不断创新和突破。同时专注于大流量、高并发、低延时的搜索系统的构建,在性能优化上,追求从内存、Disk等优化到业务架构和网络协议的创新探索,在迭代效能上不断探索容器化、动态化、搭建化等方案的创新,技术氛围强,充分给同学们提供自我成长的机会。 1、参与ByteDance搜索引擎研发工作,用前沿的机器学习深度学习算法、海量的数据,做激动人心的技术、给用户更好的搜索体验; 2、参与抖音/电商/生活服务等核心产品的搜索研发工作,致力于为数亿用户提供数千亿精准搜索结果,打造极致的搜索体验; 3、参与搜索核心算法改进,可选的方向包括: (1)NLP:利用LLM等技术,研发新的自然语言处理算法和信息检索技术,提高搜索引擎的准确性和智能化程度。 (2)召回与排序:借助语义理解、个性化预估、机制设计等技术,解决超大规模的视频、商品、直播、POI等搜索业务下的召回、排序、重混排模型; (3)多模态:基于海量网页图文、抖音视频数据的大规模多模态预训练和视频分析技术,提升视觉搜索的使用体验; (4)页面分析和摘要:从千亿视频/网页中提取最有价值的信息,进行结构化字段提取、智能摘要生成、转码等工作来优化搜索体验; (5)链接分析:从万亿链接中找出最有价值的网页,优化链接质量、索引质量、垃圾作弊识别、调度策略等。 课题介绍:随着大模型技术的快速发展,智能搜索领域迎来了新的机遇和挑战。传统搜索技术在面对海量数据、多模态信息以及用户复杂需求时,逐渐暴露出模型容量不足、语义理解能力有限、资源利用率低等问题。基于大模型的智能搜索构建旨在通过引入大模型技术,提升搜索系统的智能化水平,优化用户体验,并解决超大规模检索、复杂语义理解、资源高效利用等核心问题。具体目标包括: 1、探索大模型与排序算法的结合,提升个性化排序的精度和用户体验; 2、研究生成式检索算法,解决百亿乃至千亿级别候选库的超大规模检索问题; 3、利用大语言模型(LLM)提升复杂多义Query的搜索满意度; 4、构建高性能、低资源消耗的大规模批流一体检索和计算系统,提升资源利用率。 1、个性化排序:传统排序算法难以充分利用多模态信息(如文本、图像、视频等),且模型复杂度有限,无法满足用户对精准化和个性化搜索的需求; 2、超大规模检索:传统判别式模型在千亿级别候选库的检索中,面临模型容量不足、索引效率低下等问题,亟需新一代检索算法; 3、复杂Query理解:用户搜索需求日益复杂,传统搜索引擎难以准确理解长难句、多义Query的语义,导致搜索结果满意度低; 4、资源利用率:搜索系统存储和计算分离的架构导致资源利用率低,如何在保证性能的同时优化资源使用成为关键问题。
团队介绍:字节跳动搜索团队主要负责抖音、今日头条、西瓜视频等产品的搜索工程、算法创新和架构研发工作。我们的职责是用前沿的技术去打造一个用户体验佳、信息效率高的搜索引擎产品。我们的愿景是做一款用户首选的搜索引擎,我们的使命是可以充分整合内容,高效连接人与信息。 团队主要负责抖音、今日头条、西瓜视频、问答和百科等产品的业务研发和架构研发工作。 我们使用前沿的前端、客户端和服务端技术赋能于搜索业务的快速迭代,并在技术上不断创新和突破。同时专注于大流量、高并发、低延时的搜索系统的构建,在性能优化上,追求从内存、Disk等优化到业务架构和网络协议的创新探索,在迭代效能上不断探索容器化、动态化、搭建化等方案的创新,技术氛围强,充分给同学们提供自我成长的机会。 1、参与ByteDance搜索引擎研发工作,用前沿的机器学习深度学习算法、海量的数据,做激动人心的技术、给用户更好的搜索体验; 2、参与抖音/电商/生活服务等核心产品的搜索研发工作,致力于为数亿用户提供数千亿精准搜索结果,打造极致的搜索体验; 3、参与搜索核心算法改进,可选的方向包括: (1)NLP:利用LLM等技术,研发新的自然语言处理算法和信息检索技术,提高搜索引擎的准确性和智能化程度。 (2)召回与排序:借助语义理解、个性化预估、机制设计等技术,解决超大规模的视频、商品、直播、POI等搜索业务下的召回、排序、重混排模型; (3)多模态:基于海量网页图文、抖音视频数据的大规模多模态预训练和视频分析技术,提升视觉搜索的使用体验; (4)页面分析和摘要:从千亿视频/网页中提取最有价值的信息,进行结构化字段提取、智能摘要生成、转码等工作来优化搜索体验; (5)链接分析:从万亿链接中找出最有价值的网页,优化链接质量、索引质量、垃圾作弊识别、调度策略等。 课题介绍:随着大模型技术的快速发展,智能搜索领域迎来了新的机遇和挑战。传统搜索技术在面对海量数据、多模态信息以及用户复杂需求时,逐渐暴露出模型容量不足、语义理解能力有限、资源利用率低等问题。基于大模型的智能搜索构建旨在通过引入大模型技术,提升搜索系统的智能化水平,优化用户体验,并解决超大规模检索、复杂语义理解、资源高效利用等核心问题。具体目标包括: 1、探索大模型与排序算法的结合,提升个性化排序的精度和用户体验; 2、研究生成式检索算法,解决百亿乃至千亿级别候选库的超大规模检索问题; 3、利用大语言模型(LLM)提升复杂多义Query的搜索满意度; 4、构建高性能、低资源消耗的大规模批流一体检索和计算系统,提升资源利用率。 1、个性化排序:传统排序算法难以充分利用多模态信息(如文本、图像、视频等),且模型复杂度有限,无法满足用户对精准化和个性化搜索的需求; 2、超大规模检索:传统判别式模型在千亿级别候选库的检索中,面临模型容量不足、索引效率低下等问题,亟需新一代检索算法; 3、复杂Query理解:用户搜索需求日益复杂,传统搜索引擎难以准确理解长难句、多义Query的语义,导致搜索结果满意度低; 4、资源利用率:搜索系统存储和计算分离的架构导致资源利用率低,如何在保证性能的同时优化资源使用成为关键问题。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。 主要工作方向包括: 1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战; 2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力; 3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你; 4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新; 5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。 1、参与搜索引擎(策略、模型)研发工作,支持抖音/今日头条/电商/番茄小说/红果短剧等具有数亿用户的产品,致力于为数亿用户提供数千亿精准搜索结果,打造极致的搜索体验; 2、探索前沿技术,探索大模型等创新技术在AI搜索场景的落地,参与搜索引擎、搜索大模型的改进,包括而不限于: 1)NLP、大模型:构建大规模高质量数据(数据建设、数据抓取与解析、数据合成等)、分词、NER,文本、多模态预训练、Query分析、基础相关性等,全链路结合应用机器学习/深度学习模型,探索搜索引擎与大模型、LLM、MLLM、多模态、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包含而不限于相关性、权威性、时效性、意图理解能力等;探索新的自然语言处理算法、信息检索技术、LLM适性索引、LLM相关性、生成式召回、排序大模型等,提高搜索引擎的准确性和智能化程度; 2)召回与排序:借助语义理解、个性化预估、机制设计等技术,解决超大规模的视频、商品、直播、POI等搜索业务下的召回、排序、重混排模型; 3)多模态、跨模态匹配技术:基于海量网页图文、抖音视频数据的大规模多模态预训练和视频分析技术,提升视觉搜索的使用体验;在搜索中结合CV+NLP深度学习技术,实现多模态、视频搜索、强大的语义理解和检索能力; 4)页面分析和摘要:从千亿视频/网页中提取最有价值的信息,进行结构化字段提取、智能摘要生成、转码等工作来优化搜索体验; 5)链接分析:从万亿链接中找出最有价值的网页,优化链接质量、索引质量、垃圾作弊识别、调度策略等。