通义通义实验室-语音合成大模型算法专家-通义百聆
社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘
任职要求
1.计算机科学、人工智能、电子工程、应用数学等相关专业硕士及以上学历。 2.具备扎实的机器学习、深度学习理论基础,精通语音生成相关技术。 3.熟练至少一种大模型训练框架(Deepspeed, Megatron),有大模型训练经验。 4.有较强的学习能力和问题解决能力,有自驱力,能快速掌握新技术并应用于实践。 5.发表过相关领域顶级会议论文(NeurIPS、ICML、ICLR、ACL、Interspeech、ICASSP等)、参与行业有影响力项目或者ACM竞赛获奖者优先。
工作职责
1.参与前沿语音生成大模型的研发,涵盖数据体系设计、模型架构设计、训练优化等。 2.探索语音合成、声学建模、自然语言处理等多模态融合技术,提升模型在语音质量、自然度及逻辑推理能力上的表现。 3.针对实际应用场景(音色克隆、情感控制等)优化模型效果和性能,解决复杂技术难题。
包括英文材料
学历+
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
DeepSpeed+
https://www.youtube.com/watch?v=pDGI668pNg0
Megatron+
https://www.youtube.com/watch?v=hc0u4avAkuM
NeurIPS+
https://neurips.cc/
ICML+
https://icml.cc/
ICLR+
https://iclr.cc/
ACL+
https://www.aclweb.org/portal/
Computational linguistics is the scientific study of language from a computational perspective.
相关职位
社招2年以上技术类-算法
1. 负责语音合成、语音识别、端到端语音交互大模型算法的基础研究和应用落地; 2. 参与语音合成与识别技术在业务场景落地,解决落地过程中的前沿问题,持续优化语音合成与识别核心技术效果; 3. 深入调研和关注音频/NLP/多模态/全模态等方向的前沿技术,持续探索语音技术的新能力和新应用。
更新于 2025-09-19
社招2年以上
1、 参与语音大模型的研发,包括语音识别、语音合成、音色克隆、端到端合成等技术; 2、探索歌曲、音乐等音频的理解与合成技术; 3、打造全模态的大模型; 4、将以上技术落地到淘天业务,考虑模型性能与效率。
更新于 2025-07-01
社招1年以上
1、参与开发对话式AI助手在电商领域应用的相关算法工作; 2、参与对话式AI助手语音识别、语音合成、自然语言理解、对话管理等相关核心技术的研发; 3、负责对AI助手进行性能优化,并且提升用户体验; 4、跟踪业界前沿技术,进行技术预研。
更新于 2025-10-11