logo of sensetime

商汤语音算法研究实习生

社招全职算法研究地点:北京 | 深圳状态:招聘

任职要求


1.人工智能、机器学习、信号处理或计算机科学等相关专业研究生以上学历,基础扎实
2.熟悉主流的语音识别模型算法,如RNN-T、conformer、CTC
3.熟悉kaldi / K2 / wenet / espnet / whisper / FunASR 中至少两种工具
4.学习研究能力强,能够独立阅读英文文献,对解决具有挑战性的问题充满激情
5.具有扎实的机器学习理论基础,优秀的算法实现能力,熟练使用 PyTorch深度学习框架,掌握SSL、LLM、diffusion、对比学习等机器学习技术在音频生成领域的应用;
6.具有…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 参与多模态语音交互场景下的语音理解、语音生成和语音交互大模型的算法研发、性能优化与落地实现;
2.参与数字人场景下的个性化实时情感对话语音合成、低资源音色克隆、语音识别、语音增强、语音检测、语种识别、声纹识别、说话人分割、变声、音乐生成等技术研发;
3.参与语音相关算法引擎的流式改造、推理优化、大并发低延迟云服务、私有化服务定制开发;
4.跟进学术界、行业最新的研究趋势,产出新的科研成果,并落地于实际产品。
包括英文材料
机器学习+
学历+
语音识别+
算法+
RNN+
PyTorch+
深度学习+
大模型+
还有更多 •••
相关职位

logo of bytedance
实习A76948

团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 课题介绍:大规模推荐系统正在越来越多的应用到短视频、文本社区、图像等产品上,模态信息在推荐系统中的作用也越来越大。字节实践中发现模态信息能够很好的作为泛化特征支持推荐等业务场景,端到端的超大规模多模态推荐系统的研究具有非常大的想象空间。期望在算法和工程CoDesign基础上,对多模态Cotrain、7B/13B大规模参数模型、更长序列端到端等方向进一步进行探索。工程上研究方向包括多模态样本的表征、基于Pytorch框架的高性能多模态推理引擎、高性能多模态训练框架的构建、异构硬件在多模态推荐系统上的应用;算法上的研究方向包括设计合理的推荐广告和多模态Cotrain结构、Sparse MOE、Memory Network、混合精度等。 1、AML负责给字节跳动提供大规模机器学习的算力,算法团队负责探索算法和系统的CoDesign,对推荐广告模型进行Deep & Wider的超大规模复杂化,例如7Billion/13Billion复杂化模型Scaling Law探索、长序列端到端入图建模、生成式、多模态Cotrain等; 2、参与抖音、今日头条等产品中的机器学习算法应用与优化,包括推荐、广告、多模态等需要利用大量算力的地方; 3、和工程团队密切配合,探索新的架构下新的算法。

更新于 2025-02-26北京
logo of bytedance
实习A156387

团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 课题介绍:大规模推荐系统正在越来越多的应用到短视频、文本社区、图像等产品上,模态信息在推荐系统中的作用也越来越大。字节实践中发现模态信息能够很好的作为泛化特征支持推荐等业务场景,端到端的超大规模多模态推荐系统的研究具有非常大的想象空间。期望在算法和工程CoDesign基础上,对多模态Cotrain、7B/13B大规模参数模型、更长序列端到端等方向进一步进行探索。工程上研究方向包括多模态样本的表征、基于Pytorch框架的高性能多模态推理引擎、高性能多模态训练框架的构建、异构硬件在多模态推荐系统上的应用;算法上的研究方向包括设计合理的推荐广告和多模态Cotrain结构、Sparse MOE、Memory Network、混合精度等。 1、AML负责给字节跳动提供大规模机器学习的算力,算法团队负责探索算法和系统的CoDesign,对推荐广告模型进行Deep & Wider的超大规模复杂化,例如7Billion/13Billion复杂化模型Scaling Law探索、长序列端到端入图建模、生成式、多模态Cotrain等; 2、参与抖音、今日头条等产品中的机器学习算法应用与优化,包括推荐、广告、多模态等需要利用大量算力的地方; 3、和工程团队密切配合,探索新的架构下新的算法。

更新于 2025-02-26杭州
logo of bytedance
实习A48449

ByteIntern:面向2025届毕业生(2024年9月-2025年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、参与研发前沿算法,发表国际顶级论文、申请专利; 2、深入调研和关注大语言模型/多模态大模型等方向的前沿技术,应用解决业界实际问题的机会以及经验; 3、良好的团队氛围,丰富的计算和数据资源。

更新于 2024-05-16杭州
logo of bytedance
实习A152373

ByteIntern:面向2025届毕业生(2024年9月-2025年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、参与研发前沿算法,发表国际顶级论文、申请专利; 2、深入调研和关注大语言模型/多模态大模型等方向的前沿技术,应用解决业界实际问题的机会以及经验; 3、良好的团队氛围,丰富的计算和数据资源。

更新于 2024-05-16上海