logo of bytedance

字节跳动智能音频算法工程师-视频云

社招全职A73988A地点:上海状态:招聘

任职要求


1、丰富的数字信号处理和人工智能/深度学习系统研发经验:在3D空间音频渲染,降噪/回声/去混响等音频前处理,声纹/唤醒,声音事件检测,语音识别自然语言处理等一个或几个领域有项目实践;
2、熟悉数据结构算法,深度网络模型设计和调优,熟练掌握Kaldi,TensorFlowPytorch等开源工具,有大规模训练数据集上进行模型训练和探索经验尤佳;
3、良好的团队合作意识和学习能力,有业务意识,对语音和音频领域技术有热情;
4、在相关国际会议或主流期刊上发表论文者优先(ICASSP,Interspeech,ASRU)。

工作职责


1、负责字节跳动旗下音频内容消费业务场景的智能音频理解和处理算法研发和业务支持,业务包括但不限于抖音,西瓜视频,直播,剪映等;
2、搭建智能音频理解和处理的系统级解决方案,为字节跳动智能音频ToB提供技术支持;
3、跟踪智能音频领域的最新技术进展并升级团队自研的各算法系统,包括3D空间渲染,音频质量提升系统,音频事件检测系统,音频理解系统等;
3、跟进产品业务的音频需求,持续改进产品的音频质量体验;
4、跟踪研发业界先进的音频进展,统计模型/机器学习/深度学习技术在语音/音频领域研发并落地产品。
包括英文材料
深度学习+
语音识别+
NLP+
数据结构+
算法+
TensorFlow+
PyTorch+
相关职位

logo of aliyun
实习阿里云2026届

阿里云是国内领先的音视频服务云厂商,业务涵盖直播、点播、智能媒体服务和实时音视频通信等方面。通过先进的音视频技术和强大的云计算能力,为各个行业提供高性能、高可靠、灵活智能的音视频服务。 具体职责包括不限于: 1、视频云直播、连麦,点播,短视频,媒体生产与处理等服务相关的实时/非实时的音频分析和处理; 2、音频处理算法,包括多场景降噪、自动增益控制、回声消除等; 3、音频特效算法研发,包括变调变速、机械音、性别老幼、拟物等各类变声以及说话人转换,虚拟3D声,HRTF; 4、音频分析,包括鼓掌、欢呼等特征音频标定,音乐鼓点标定,音乐风格分类、情绪分类等。

更新于 2025-04-23
logo of bytedance
社招2年以上A157506

1、负责火山引擎视频云后端服务的设计开发和体验优化,开发基于RTC场景的对话式AI,虚拟数字人,智能语音,媒体网关,媒体处理等产品和服务; 2、负责系统稳定性建设和产品体验提升,如全球化多IDC的容灾能力建设、系统并发能力提升、音质画质优化、全链路延迟优化、程序性能优化等。

更新于 2025-04-03
logo of bytedance
校招A239647

团队介绍:抖音内容理解团队负责抖音集团内容算法工作,业务覆盖抖音、今日头条、西瓜视频、剪映等业务,承接业务在内容理解、LLM应用、新业务方向探索等方向的工作。技术上涵盖了CV,NLP,音频,LLM等算法方向。团队承载业务需求同时还负责底层基础算法技术,推动如基础预训练模型、视频生成等学术和专利相关工作,负责为抖音各个技术方向提供长期有深度的技术支撑。得益于抖音集团业务数量庞大的多模态业务数据和业务需求,团队能够有资源和机会去做出行业领先的技术创新,用最新的技术去改变影响用户和改变行业格局。 1、课题背景:随着多模态大模型效果的提升,现已变成了多个业务和技术方向的核心算法能力。随着业务在内容理解、推荐系统、内容治理、客服、创新业务等方向的广泛应用,对于多模态大模型也带来了新的算法能力需求:(1)内容理解:团队涉及了包括视频、直播、评论、图文等等不同的内容体裁和业务形态,集团公司所覆盖的活跃用户每天会产生数量巨大品类丰富的多模态内容,在提供了独一无二内容数据的同时,也衍生出来了独特的业务和技术需求;(2)多模态对话能力:作为大模型技术最直接的应用场景对话场景,团队在客服、AI分身等领域快速推进相关技术的落地应用。对应方向的多模态内容理解和挖掘、多模态对话能力是支撑该场景的重要基础技术,需要建设作者profile抽取、业务多模态文档挖掘、多模态对话模型等技术建设;(3)业务和技术创新:MLLM技术对于包括推荐、内容理解、社交等业务方向和算法技术都造成了巨大的冲击,多模态模型技术作为核心技术正在重构每一个重要的方向,会在下一代推荐系统、新业务形态、内部流程架构重构上扮演关键角色。 2、课题挑战:(1)高标准的算法要求:推荐系统、内容治理等方向内容理解的复杂度远高于公开评测集,团队需要在海量内容的业务真实场景下探索高效率、高标准的多模态算法解法,帮助团队迭代新一代的推荐系统、内容理解系统;(2)复杂的多模态生态交互:内容作者、内容消费者、社交交互、评论交互等不同角色在平台形成复杂的多模态交互,由此衍生出新的内容交互语义、生态互动逻辑,对多模态大模型算法提出了独特的算法挑战;(3)业务创新:大模型在多个领域都展现出来了卓越的理解和交互能力,如何应用新技术创造出新的业务方向,如何公司内部用新技术替代掉老的系统和流程,要求算法团队在有足够扎实技术能力的同时对业务和技术有足够深入的思考。 3、研究方向:大语言模型、多模态大模型、内容理解、推荐系统。

更新于 2025-05-26
logo of bytedance
校招A195649

团队介绍:抖音内容理解团队负责抖音集团内容算法工作,业务覆盖抖音、今日头条、西瓜视频、剪映等业务,承接业务在内容理解、LLM应用、新业务方向探索等方向的工作。技术上涵盖了CV,NLP,音频,LLM等算法方向。团队承载业务需求同时还负责底层基础算法技术,推动如基础预训练模型、视频生成等学术和专利相关工作,负责为抖音各个技术方向提供长期有深度的技术支撑。得益于抖音集团业务数量庞大的多模态业务数据和业务需求,团队能够有资源和机会去做出行业领先的技术创新,用最新的技术去改变影响用户和改变行业格局。 1、课题背景:随着多模态大模型效果的提升,现已变成了多个业务和技术方向的核心算法能力。随着业务在内容理解、推荐系统、内容治理、客服、创新业务等方向的广泛应用,对于多模态大模型也带来了新的算法能力需求:(1)内容理解:团队涉及了包括视频、直播、评论、图文等等不同的内容体裁和业务形态,集团公司所覆盖的活跃用户每天会产生数量巨大品类丰富的多模态内容,在提供了独一无二内容数据的同时,也衍生出来了独特的业务和技术需求;(2)多模态对话能力:作为大模型技术最直接的应用场景对话场景,团队在客服、AI分身等领域快速推进相关技术的落地应用。对应方向的多模态内容理解和挖掘、多模态对话能力是支撑该场景的重要基础技术,需要建设作者profile抽取、业务多模态文档挖掘、多模态对话模型等技术建设;(3)业务和技术创新:MLLM技术对于包括推荐、内容理解、社交等业务方向和算法技术都造成了巨大的冲击,多模态模型技术作为核心技术正在重构每一个重要的方向,会在下一代推荐系统、新业务形态、内部流程架构重构上扮演关键角色。 2、课题挑战:(1)高标准的算法要求:推荐系统、内容治理等方向内容理解的复杂度远高于公开评测集,团队需要在海量内容的业务真实场景下探索高效率、高标准的多模态算法解法,帮助团队迭代新一代的推荐系统、内容理解系统;(2)复杂的多模态生态交互:内容作者、内容消费者、社交交互、评论交互等不同角色在平台形成复杂的多模态交互,由此衍生出新的内容交互语义、生态互动逻辑,对多模态大模型算法提出了独特的算法挑战;(3)业务创新:大模型在多个领域都展现出来了卓越的理解和交互能力,如何应用新技术创造出新的业务方向,如何公司内部用新技术替代掉老的系统和流程,要求算法团队在有足够扎实技术能力的同时对业务和技术有足够深入的思考。 3、研究方向:大语言模型、多模态大模型、内容理解、推荐系统。

更新于 2025-05-26