
巨人网络语音算法实习生
实习兼职实习生地点:上海状态:招聘
任职要求
1、计算机或相关专业,硕士及以上学历,26届及之后的同学优先; 2、具备扎实的机器学习、深度学习、语音的理论背景和实践经验,熟悉主流生成式模型、跨模态表征模型及微调方法,熟悉多模态大模型及语音大模型训练者优先; 3、优秀的工程落地能力,熟悉PyTorch深度学习框架以及Python/C++编程语言,…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、参与多模态语音理解+生成(speech、audio、music)领域的科研,效果优秀后推动在视频、游戏业务场景下的算法研发、落地,包括但不限于数据处理、模型训练、效果调优; 2、紧跟前沿技术、参与关键技术创新、突破与积累,撰写论文。
包括英文材料
学历+
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
还有更多 •••
相关职位
实习
1、负责语音降噪、语音唤醒、语音识别等前沿语音算法的研发; 2、负责算法模型在业务场景数据集上的优化,导出部署在端侧或云端平台; 3、跟进行业最新算法动态,复现和优化前沿算法,保持算法在工业界和学术界的领先
更新于 2025-03-10深圳
实习高德研究型实习生
团队介绍: 高德语音技术部,是负责高德全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。近期部分技术(https://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg) 具体职责: 1、参与语音识别、语音合成、Audio Codec、语音大模型等语音能力的设计和训练,解决高德业务场景实际问题。 2、提升鲁棒ASR、多语种(方言)ASR、LLM-ASR、大规模热词、全双工交互等语音理解能力。 3、提升Zero-Shot TTS、多语种TTS、情感TTS、声音复刻等语音生成能力。 4、持续追踪跟进业界前沿先进语音技术,结合业务需求开展技术创新与预研。
更新于 2025-11-07北京