
智能互联高德-语音算法工程师/专家-北京
任职要求
1. 研究生及以上学历或优秀本科生,计算机、人工智能、软件、数学等相关专业; 2. 较强的代码能力,在文本大模型或多模态大模型某一领域(语音大模型、Voice Agent、生成模型等)有过深入的研究经历或者应用经验; 3. 熟练掌握C/C++,Python,Shell编程语言,对数据结构和算法设计有较好的理解; 4. 精通 Pytorch / megatron等深度学习框架,熟悉 Transformer 架构以及大语言模型基础知识; 加分项: 1. 有丰富的对话大模型…
工作职责
团队介绍: 高德语音技术部,是负责高德全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。 具体职责: 围绕voice agent/speech language model的研究工作,包括但不限于如下事项: 1. 为满足AGI时代"活人感"语音交互的需求,致力于完成包括但不限于以下目标:复杂声学+时空信息的声学理解、通过图灵测试水平的交互节奏 / 交流内容 / 语音输出,并完成所需的技术创新; 2. 多模态对话大模型的研发、语音对话pipeline方案以及端到端方案的交互能力搭建、全双工交互能力搭建,落地到高德多项agent应用场景; 3. 跟进最领先的语音理解/语音生成/语音交互技术,包括但不限于提出新的技术框架、改进现有的算法、持续提升相关技术及业务指标,鼓励撰写论文及申请专利; 4. 探索前沿方向,如更加高效且合理的模型架构、跨模态(文字/语音/视觉)混合训练的最佳实践、基于speech language model的后训练技术、COT Reasoning in streaming full-duplex、proactive interaction,等等。结合全链路各个agent,持续提升voice agent的交互体验; 5. 海量的语音数据的处理构建:定性分析、定量评估、参与设计自动评估框架,研发 scalable 的改进方案,持续提升数据质量。
团队介绍: 高德语音技术团队,由高德资深算法专家,原微软小冰核心对话技术负责人组建,主要负责前沿语音技术在高德丰富场景中的落地应用。团队当前聚焦在语音合成、唤醒、语音AIGC等方向,探索前沿语音大模型技术对高德丰富产品形态的赋能。 具体职责包括但不限于: 1、对语音合成、自然语言处理、音视频多模态融合和大模型等方向感兴趣,独立研究并完成指定课题; 2、通过机器学习和人工智能技术来提升甚至重新定义音频内容创作工作,产出下一代超自然语音合成技术并应用于高德出行业务场景。
团队介绍: 我们团队为用户提供满足各种出行场景的好路线,提供极致的出行体验,同时服务C端、B端,涵盖自驾、打车、物流等多种业务场景,我们的每一次技术升级或业务的改进都能影响全国用户,有非常复杂的高并发分布式服务系统架构,有业界最先进的路线规划算法(cbr,cch,rch,raptor等)。如果你想发挥你的想象力创造更多社会价值,如果你享受克服困难和挑战自我的喜悦,如果你热爱技术并喜欢追求极致性能和效果,如果你渴望挖掘出源源不断的新应用场景,那就加入我们团队吧! 岗位职责: 你将加入高德在线导航服务团队,从0到1参与打造手车一体的「出行域 Agent」。目标体验对标特斯拉车机中的 Grok:让用户可以用自然语言完成从出行规划、实时导航到行程中各类决策的全流程交互,实现“能听懂、会思考、帮决策、可执行”的智能出行助手。 工作职责: 1.子Agent架构设计与服务实现 a)参与设计出行域子Agent的整体技术架构,包括调用链路、状态管理、容错与降级方案。 b)实现与高德主Agent的协议对接和能力编排,支持多轮对话、工具调用、跨场景任务协同。 c)在手机端与车机端统一能力出口下,处理不同终端、不同地区/国家的差异化需求(如地图/POI/法规差异)。 大模型微调与蒸馏落地 2.针对出行/导航/车机场景,设计与构建高质量训练数据(提示词工程、对话数据、工具调用日志等)。 a)参与或主导对基础大模型的大规模微调(Supervised Fine-tuning / Preference Optimization 等),提升在出行域的理解和决策能力。 b)负责模型压缩、蒸馏与推理优化,使模型在服务端/边缘侧兼顾效果与时延。 3.Agent能力调优与决策优化 a)设计和优化子Agent的工具使用策略(Tool / Function Calling),包括路况查询、路线规划、POI 检索、多目的地规划、国际场景信息调用等。 b)在弱网、高并发、复杂上下文下优化Agent的鲁棒性和决策稳定性。 c)针对复杂出行任务(如跨城自驾、多目的地行程、充电/加油规划、实时绕行、国际出行规则差异)进行专项调优。 4.效果评测与质量体系构建 a)搭建出行Agent的自动化评测框架,包括:指令理解准确率、工具调用正确率、任务成功率、响应时延、用户反馈闭环等。 b)构建离线评测集和真实流量回放机制,持续追踪模型与系统升级带来的收益和风险。 c)联合产品与运营,通过灰度发布、A/B 实验驱动持续优化。 5.性能与稳定性保障 a)在9亿+月活与车机大规模接入背景下,对服务进行高可用、高性能设计(限流、降级、缓存、异步架构、观测性体系)。 b)处理线上复杂问题(流量波动、模型异常、工具依赖故障等),建立监控、告警和自愈机制。 6.前沿技术探索与工程化落地 a)跟踪 LLM、Agent、RAG、多Agent协作、规划与推理(Planning & Reasoning)、多模态等方向的最新进展,并筛选适合出行场景的技术方案。 b)探索将地图/导航结构化数据与大模型结合的最佳实践,让Agent真正“看得懂地图、懂路况”。

团队介绍: 我们团队为用户提供满足各种出行场景的好路线,提供极致的出行体验,同时服务C端、B端,涵盖自驾、打车、物流等多种业务场景,我们的每一次技术升级或业务的改进都能影响全国用户,有非常复杂的高并发分布式服务系统架构,有业界最先进的路线规划算法(cbr,cch,rch,raptor等)。如果你想发挥你的想象力创造更多社会价值,如果你享受克服困难和挑战自我的喜悦,如果你热爱技术并喜欢追求极致性能和效果,如果你渴望挖掘出源源不断的新应用场景,那就加入我们团队吧! 岗位职责: 你将加入高德在线导航服务团队,从0到1参与打造手车一体的「出行域 Agent」。目标体验对标特斯拉车机中的 Grok:让用户可以用自然语言完成从出行规划、实时导航到行程中各类决策的全流程交互,实现“能听懂、会思考、帮决策、可执行”的智能出行助手。 工作职责: 1.子Agent架构设计与服务实现 a)参与设计出行域子Agent的整体技术架构,包括调用链路、状态管理、容错与降级方案。 b)实现与高德主Agent的协议对接和能力编排,支持多轮对话、工具调用、跨场景任务协同。 c)在手机端与车机端统一能力出口下,处理不同终端、不同地区/国家的差异化需求(如地图/POI/法规差异)。 大模型微调与蒸馏落地 2.针对出行/导航/车机场景,设计与构建高质量训练数据(提示词工程、对话数据、工具调用日志等)。 a)参与或主导对基础大模型的大规模微调(Supervised Fine-tuning / Preference Optimization 等),提升在出行域的理解和决策能力。 b)负责模型压缩、蒸馏与推理优化,使模型在服务端/边缘侧兼顾效果与时延。 3.Agent能力调优与决策优化 a)设计和优化子Agent的工具使用策略(Tool / Function Calling),包括路况查询、路线规划、POI 检索、多目的地规划、国际场景信息调用等。 b)在弱网、高并发、复杂上下文下优化Agent的鲁棒性和决策稳定性。 c)针对复杂出行任务(如跨城自驾、多目的地行程、充电/加油规划、实时绕行、国际出行规则差异)进行专项调优。 4.效果评测与质量体系构建 a)搭建出行Agent的自动化评测框架,包括:指令理解准确率、工具调用正确率、任务成功率、响应时延、用户反馈闭环等。 b)构建离线评测集和真实流量回放机制,持续追踪模型与系统升级带来的收益和风险。 c)联合产品与运营,通过灰度发布、A/B 实验驱动持续优化。 5.性能与稳定性保障 a)在9亿+月活与车机大规模接入背景下,对服务进行高可用、高性能设计(限流、降级、缓存、异步架构、观测性体系)。 b)处理线上复杂问题(流量波动、模型异常、工具依赖故障等),建立监控、告警和自愈机制。 6.前沿技术探索与工程化落地 a)跟踪 LLM、Agent、RAG、多Agent协作、规划与推理(Planning & Reasoning)、多模态等方向的最新进展,并筛选适合出行场景的技术方案。 b)探索将地图/导航结构化数据与大模型结合的最佳实践,让Agent真正“看得懂地图、懂路况”。
团队介绍: 高德语音技术部,是负责高德全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、跨模态模型、模型服务与推理。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。近期部分技术(https://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg) 具体职责包括但不限于: 1、语音识别、唤醒、语音与大模型融合等语音模块的研发,独立研究并完成业务落地; 2、结合高德出行导航、语音交互等业务场景,不断完善提升复杂业务场景下的语音理解能力。 3、与产品、工程架构团队一起完成技术方案的部署上线与性能优化,实现价值闭环。 4、持续追踪跟进业界前沿先进语音技术,结合业务需求开展技术创新与预研。