字节跳动音频算法研究专家-视频与边缘
任职要求
1、获得硕士及以上学位,计算机科学、人工智能、语音处理、机器学习等专业优先; 2、至少3年在音频、音乐或相关领域的研究研发经验,熟悉Diffusion、CRN、Codec或理解模块之一; 3、熟悉深度学习、神经网络以及相关的开源工具和框架(如TensorFlow、PyTorch)、实时流式音频处理框架; 4、具备出色的编程能力,熟练掌握Python或其他相关编程语言,有C++或者Go语言开发经验者优先; 5、具备良好的团队合作精神、沟通能力、同理心以及解决问题的能力。
工作职责
1、负责实时音频团队音乐基础技术,歌唱音乐等音频的实时理解与生成; 2、侧重于研发音乐生成、音乐理解、智能美声、音频生成与理解的基础算法; 3、通过跟踪和创新,确保算法方面的行业领先,服务于各个业务场景包括直播、游戏、社交、会议、数智人等等,帮助业务产生实际价值和打造业界领先的语音应用产品; 4、持续关注学术界和行业的最新研究动态,参与国际会议、研讨会,与全球顶级团队进行交流合作。
1. 研发面向游戏平台场景的多模态大模型,包括文本、图像、视频、音频等多模态数据的理解与生成; 2. 构建与优化游戏内容理解算法,涵盖游戏玩法解析、类型识别、特色标签生成、玩家评论分析、剧情/世界观理解等; 3. 参与 TapTap 风格的视频与广告素材生成方案,支持用户增长团队等多模态素材生成的训练需求; 4. 支持游戏搜索与发现,利用多模态大模型进行精准匹配、语义搜索、跨模态检索(文本→视频、视频→游戏等); 5. 跟进并引入最新的多模态大模型研究成果,探索其在游戏行业的新应用场景; 6. 有预研的空间,进行学术研究与论文发表,推动顶会/顶刊产出,并结合业务进行技术落地; 7. 优化大模型的训练与推理性能,保障在海量游戏内容和用户数据上的高效运行。
1. 研发面向游戏平台场景的多模态大模型,包括文本、图像、视频、音频等多模态数据的理解与生成; 2. 构建与优化游戏内容理解算法,涵盖游戏玩法解析、类型识别、特色标签生成、玩家评论分析、剧情/世界观理解等; 3. 参与 TapTap 风格的视频与广告素材生成方案,支持用户增长团队等多模态素材生成的训练需求; 4. 支持游戏搜索与发现,利用多模态大模型进行精准匹配、语义搜索、跨模态检索(文本→视频、视频→游戏等); 5. 跟进并引入最新的多模态大模型研究成果,探索其在游戏行业的新应用场景; 6. 有预研的空间,进行学术研究与论文发表,推动顶会/顶刊产出,并结合业务进行技术落地; 7. 优化大模型的训练与推理性能,保障在海量游戏内容和用户数据上的高效运行。
团队介绍:国际商业化产品与技术团队支持字节跳动国际产品的广告产品与变现技术。我们负责end2end的大型广告系统建设,为客户提供商业推广方式与方案。我们的团队遍布北京、上海、美国、新加坡等地,在这里你将有机会开阔自己的国际化视野,接触到全球领先的商业产品架构、模型和算法,并有机会参与并推动互联网广告行业的创新和变革。 课题背景: 随着LLM大模型和多模态技术的快速发展,给下一代广告系统带来了重大机会,LLM可以根据广告平台的投放经验和数据,并且结合对广告大模型的理解,通过Reflection、RLHF等技术构建与真实环境交互的Agent,从而实现专家级别的广告账号管理,实现最高的ROI。同时广告Agent可探索根据用户的兴趣,个性化实现在线素材生产,最终实现广告素材和创意样式的千人千面,极大撬动用户和商品的匹配效率。 课题挑战: 现有的LLM在垂直广告营销领域上尚不能给出专业且能提升效果的专业知识,并且Agent无法很好的操作和里面广告系统。在创意方面,视频生成模型质量还不能满足广告生成的要求,以及和投放系统结合千人千面的个性化效果。 1、负责广告、电商、短视频、直播等相关内容理解,包括图片、文本、视频、音频等; 2、负责数据挖掘与特征工程,构建机器学习模型,构建商业化生态; 3、面对千万量级业务/受限资源等场景,优化模型计算效率,提升模型可用性; 4、依托海量业务数据,探索并落地各种前沿技术(如预训练、自监督学习、小样本学习等); 5、探索AIGC前沿技术,构建新一代基于AIGC的商业化生态。
团队介绍:国际商业化产品与技术团队支持字节跳动国际产品的广告产品与变现技术。我们负责end2end的大型广告系统建设,为客户提供商业推广方式与方案。我们的团队遍布北京、上海、美国、新加坡等地,在这里你将有机会开阔自己的国际化视野,接触到全球领先的商业产品架构、模型和算法,并有机会参与并推动互联网广告行业的创新和变革。 课题背景: 随着LLM大模型和多模态技术的快速发展,给下一代广告系统带来了重大机会,LLM可以根据广告平台的投放经验和数据,并且结合对广告大模型的理解,通过Reflection、RLHF等技术构建与真实环境交互的Agent,从而实现专家级别的广告账号管理,实现最高的ROI。同时广告Agent可探索根据用户的兴趣,个性化实现在线素材生产,最终实现广告素材和创意样式的千人千面,极大撬动用户和商品的匹配效率。 课题挑战: 现有的LLM在垂直广告营销领域上尚不能给出专业且能提升效果的专业知识,并且Agent无法很好的操作和里面广告系统。在创意方面,视频生成模型质量还不能满足广告生成的要求,以及和投放系统结合千人千面的个性化效果。 1、负责广告、电商、短视频、直播等相关内容理解,包括图片、文本、视频、音频等; 2、负责数据挖掘与特征工程,构建机器学习模型,构建商业化生态; 3、面对千万量级业务/受限资源等场景,优化模型计算效率,提升模型可用性; 4、依托海量业务数据,探索并落地各种前沿技术(如预训练、自监督学习、小样本学习等); 5、探索AIGC前沿技术,构建新一代基于AIGC的商业化生态。