logo of amap

高德地图高德-语音合成算法专家-APP平台业务

社招全职3年以上技术类-算法地点:北京状态:招聘

任职要求


1. 硕士及以上学历,3年以上语音合成工作经验,语音、信号、计算机等相关专业背景;
2. 深刻理解neural TTS原理,对Tacotron,Fastspeech,Vits等主流技术至少精通一种;
3. 熟练掌握Pytorch/Tensorflow等至少一种深度学习框架,python编程能力优秀,有丰富的模型训练和调优经验;
4. 逻辑思维严谨清晰,有良好的分析和沟通能力,能够独立负责技术点的优化工作,或重点项目的支撑能力;
5. 有相关论文或开源项目者优先。

工作职责


团队介绍:
高德语音技术部,是负责高德自研全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音识别、模型服务与推理、大规模语音IP定制服务等。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。
团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。近期部分技术(https://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/A3TWtfwlqGdkC6oNHrkFaw )

岗位职责:
1. 负责语音合成方向的技术预研和研发工作,包括但不限于前端模型,声学模型,声码器的训练和调优;
2. 跟踪业界前沿技术和方法,持续探索语音合成技术的新能力和新应用,持续提升语音合成核心能力。
包括英文材料
学历+
PyTorch+
TensorFlow+
深度学习+
Python+
相关职位

logo of amap
实习高德地图2026

团队介绍: 高德语音技术团队,由高德资深算法专家,原微软小冰核心对话技术负责人组建,主要负责前沿语音技术在高德丰富场景中的落地应用。团队当前聚焦在语音合成、唤醒、语音AIGC等方向,探索前沿语音大模型技术对高德丰富产品形态的赋能。 具体职责包括但不限于: 1、对语音合成、自然语言处理、音视频多模态融合和大模型等方向感兴趣,独立研究并完成指定课题; 2、通过机器学习和人工智能技术来提升甚至重新定义音频内容创作工作,产出下一代超自然语音合成技术并应用于高德出行业务场景。

更新于 2025-03-03
logo of bytedance
社招8XPX1

团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、探索研究多模态理解、生成式、机器学习、强化学习、AIGC、计算机视觉、人工智能等前沿技术; 2、探索大规模/超大规模多模态理解与生成交织的基础模型,并进行极致系统优化;数据建设、指令微调、偏好对齐、模型优化;提升数据合成、Scalable Oversight、模型推理、规划能力,构建全面客观准确的评测体系,探索提升大模型能力; 3、探索突破包括而不限于多模态RAG,视觉COT与Agent等在内的多模态模型、世界模型进阶能力,构建GUI/游戏等虚拟世界的通用多模态Agent; 4、利用预训练、仿真等技术对虚拟/现实世界的各类环境进行建模,提供多模态交互探索的基本能力,推动应用落地,研发以人工智能技术为核心的新技术、新产品。

更新于 2020-01-10
logo of bytedance
社招J9EEP

团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、探索研究多模态理解、生成式、机器学习、强化学习、AIGC、计算机视觉、人工智能等前沿技术; 2、探索大规模/超大规模多模态理解与生成交织的基础模型,并进行极致系统优化;数据建设、指令微调、偏好对齐、模型优化;提升数据合成、Scalable Oversight、模型推理、规划能力,构建全面客观准确的评测体系,探索提升大模型能力; 3、探索突破包括而不限于多模态RAG,视觉COT与Agent等在内的多模态模型、世界模型进阶能力,构建GUI/游戏等虚拟世界的通用多模态Agent; 4、利用预训练、仿真等技术对虚拟/现实世界的各类环境进行建模,提供多模态交互探索的基本能力,推动应用落地,研发以人工智能技术为核心的新技术、新产品。

更新于 2021-07-18
logo of bytedance
社招R7UK1

团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、探索研究多模态理解、生成式、机器学习、强化学习、AIGC、计算机视觉、人工智能等前沿技术; 2、探索大规模/超大规模多模态理解与生成交织的基础模型,并进行极致系统优化;数据建设、指令微调、偏好对齐、模型优化;提升数据合成、Scalable Oversight、模型推理、规划能力,构建全面客观准确的评测体系,探索提升大模型能力; 3、探索突破包括而不限于多模态RAG,视觉COT与Agent等在内的多模态模型、世界模型进阶能力,构建GUI/游戏等虚拟世界的通用多模态Agent; 4、利用预训练、仿真等技术对虚拟/现实世界的各类环境进行建模,提供多模态交互探索的基本能力,推动应用落地,研发以人工智能技术为核心的新技术、新产品。

更新于 2020-03-31