字节跳动视频编码算法及架构设计研究员-视频与边缘-筋斗云人才计划
任职要求
1、获得博士学位,人工智能、计算机、通信、芯片设计等相关专业优先; 2、优秀的代码能力、数据结构和基础算法功底或芯片架构设计; 3、在TPAMI/CVPR/NeurIPS/ICCV等顶级期刊会议上发表论文者优先; 4、向标准组织提出过提案并参加标准会议经验的同学优先(软件方向),参与过AI或编码芯片项目者优先(硬件方向); 5、出色的问题分析和解决能力,有自主探索解决方案的能力。
工作职责
团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。 课题介绍:近年来,深度学习在视频及图像压缩领域逐渐成为研究热点。随着传统编码标准逐渐逼近性能瓶颈,深度学习方法受到了业界的高度重视,发展极为迅速。目前在部分场景下深度学习方法已经可以接近甚至超过H.266/VVC的压缩效率。然后相对传统编码,深度学习方法也面临着诸多挑战,例如在很多应用场景下的压缩效率依然落后于传统编码技术,运算复杂度高,跨平台编解码缺乏兼容性,难以标准化等等。此外,如何将传统编码算法和深度学习算法在统一的硬件架构下实现,并达到极致的算力利用效率,涉及到算法和硬件架构创新,是研究的难点。 1、负责研究新一代视频编码技术,产出相关技术的代码、专利、提案、论文; 2、参加标准会议,向标准组织报告产出的技术并争取标准采纳; 3、设计高效率的视频编码算法、C-model、和硬件架构; 3、与产品部门或者硬件团队同学深度合作,支撑部门前沿技术探索以及落地。
团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。 课题介绍:近年来,深度学习在视频及图像压缩领域逐渐成为研究热点。随着传统编码标准逐渐逼近性能瓶颈,深度学习方法受到了业界的高度重视,发展极为迅速。目前在部分场景下深度学习方法已经可以接近甚至超过H.266/VVC的压缩效率。然后相对传统编码,深度学习方法也面临着诸多挑战,例如在很多应用场景下的压缩效率依然落后于传统编码技术,运算复杂度高,跨平台编解码缺乏兼容性,难以标准化等等。此外,如何将传统编码算法和深度学习算法在统一的硬件架构下实现,并达到极致的算力利用效率,涉及到算法和硬件架构创新,是研究的难点。 1、负责研究新一代视频编码技术,产出相关技术的代码、专利、提案、论文; 2、参加标准会议,向标准组织报告产出的技术并争取标准采纳; 3、设计高效率的视频编码算法、C-model、和硬件架构; 3、与产品部门或者硬件团队同学深度合作,支撑部门前沿技术探索以及落地。
团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品,如抖音、今日头条、番茄小说、西瓜视频等APP的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。 课题介绍:近年来,深度学习在视频及图像压缩领域逐渐成为研究热点。随着传统编码标准逐渐逼近性能瓶颈,深度学习方法受到了业界的高度重视,发展极为迅速。目前在部分场景下深度学习方法已经可以接近甚至超过H.266/VVC的压缩效率。然后相对传统编码,深度学习方法也面临着诸多挑战,例如在很多应用场景下的压缩效率依然落后于传统编码技术,运算复杂度高,跨平台编解码缺乏兼容性,难以标准化等等。此外,如何将传统编码算法和深度学习算法在统一的硬件架构下实现,并达到极致的算力利用效率,涉及到算法和硬件架构创新,是研究的难点。 1、负责研究新一代视频编码技术,产出相关技术的代码、专利、提案、论文; 2、参加标准会议,向标准组织报告产出的技术并争取标准采纳; 3、设计高效率的视频编码算法、C-model、和硬件架构; 4、与产品部门或者硬件团队同学深度合作,支撑部门前沿技术探索以及落地。
研究方向一:基于时空场景感知的用户全域意图理解 1. 时空动态感知与即时需求捕捉,用户意图受地理位置(如商圈变化)、时间(如节假日/天气)、实时场景(如突发疫情)等多维度动态因素影响。 2. 多模态行为语义对齐与意图蒸馏,用户行为存在显性交互(点击/收藏)与隐性表达(页面停留/滑动速度)的多模态断层,且跨业务场景(到店/到家)行为模式差异显著。 3. 隐私安全的多场景知识融合,到店、到家等业务场景数据隔离导致用户认知碎片化,且需符合数据安全合规要求。 研究方向二:多模态供给理解与动态表征建模 1. 异构供给的统一语义建模,异构供给(商家/商品/服务/内容)的多模态信息融合难题,需解决文本、图像、视频等跨模态语义对齐与联合表征。 2. 实时供给状态感知与动态更新机制,如库存/价格/服务能力等高频变化要素的即时捕捉。 3. 领域知识增强的供给深度理解,构建覆盖本地生活全场景的细粒度知识图谱。 研究方向三:端到端生成式搜索系统的构建与优化 1. 端到端生成搜索架构构建,解决传统搜索系统"召回→粗排→精排→重排"多阶段解耦带来的信息损失问题,建立统一生成框架下的多目标联合优化机制;设计新型生成式排序范式,融合Scaling Law原理实现语义空间与行为空间的联合表征。 2. 生成结果的可控性与可解释性,构建多粒度约束解码机制,将业务规则、供给状态、合规要求等硬约束编码到生成过程中;同时设计基于强化学习的偏好对齐框架,实现生成质量的双重控制。 3. 实时推理性能优化,攻克大模型长序列处理的性能瓶颈,研发基于Attention稀疏化和状态复用的流式生成技术;设计轻量化验证网络,在保证生成质量的前提下将推理延迟降低至毫秒级,支撑亿级DAU场景。
团队介绍:视频与边缘部门承载了字节跳动的媒体内容分发基建及技术中台,支持了字节全系产品的点播、直播、实时通信、图片等多媒体业务发展,同时将业务发展过程中沉淀下来的技术能力和工具,通过火山引擎对外输出,面向各行各业用户提供视频云产品和服务,愿景是为内外部业务伙伴提供最低成本、最优画质、最低延时、最安全可靠的富媒体内容分发解决方案,助力业务伙伴降本提效实现持续增长。 课题介绍:近年来,深度学习在视频及图像压缩领域逐渐成为研究热点。随着传统编码标准逐渐逼近性能瓶颈,深度学习方法受到了业界的高度重视,发展极为迅速。目前在部分场景下深度学习方法已经可以接近甚至超过H.266/VVC的压缩效率。然后相对传统编码,深度学习方法也面临着诸多挑战,例如在很多应用场景下的压缩效率依然落后于传统编码技术,运算复杂度高,跨平台编解码缺乏兼容性,难以标准化等等。此外,如何将传统编码算法和深度学习算法在统一的硬件架构下实现,并达到极致的算力利用效率,涉及到算法和硬件架构创新,是研究的难点。 1、负责研究新一代视频编码技术,产出相关技术的代码、专利、提案、论文; 2、参加标准会议,向标准组织报告产出的技术并争取标准采纳; 3、设计高效率的视频编码算法、C-model、和硬件架构; 3、与产品部门或者硬件团队同学深度合作,支撑部门前沿技术探索以及落地。