logo of amap

高德地图voice agent算法实习生

实习兼职高德研究型实习生地点:北京状态:招聘

任职要求


职位要求:
1. 985/211高校本科生及以上学历,计算机、人工智能、软件、数学等相关专业,有语音、自然语言处理、多模态等背景优先;
2. 熟悉音视频创作、智能…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍:
高德语音技术部,是负责高德全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。
团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。近期部分技术(https://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg)

具体职责:
1. 协助语音大模型的数据构建,搭建高效高质的语音数据生产Pipeline 和数据标准,优化Pipeline算子,用高质量数据提升技术预研和业务落地的效果;
2. 参与语音大模型的端到端评测,搭建科学敏捷的评测Pipeline和评测标准,用全面真实的评测推动模型效果优化提升;
3. 深度理解对话交互、音视频创作的技术和产品趋势,设计与业务目标贴合的数据与评测方案;与团队协同,积极探索自动化数据生产/模型评估、数据合成等方法,提高数据标注/评测效率;
包括英文材料
学历+
NLP+
相关职位

logo of meituan
实习核心本地商业-业

【课题说明】 以大模型对话技术为核心,探索前沿技术问题。研究方向包括角色扮演、个性化对话、记忆管理,拟人化,数字人等,主要业务场景包括运营,招聘,销售,审核等。目标是构建覆盖多个场景的Agent系统,实现“技术驱动业务范式”的升级转变。 【建议研究方向】 1. 大模型个性化(Personalized LLM):通过角色扮演、用户行为数据挖掘与建模、上下文理解等方法,分析用户情感状态,提升模型的个性化回复能力。 2. 面向语音交互的拟人化技术(Voice Agent):优化大模型在语音对话场景的效果,提升大模型的拟人化水平,探索下一代端到端语音对话大模型的技术实现。 3. 记忆管理与增强(Memory):通过优化模型长上下文能力、设计记忆抽取与管理模块,提升系统的记忆能力。 4. 基于LLM的RL(LLM-based RL):通过强化学习,提升模型规划、决策、推理等能力。 我们将提供充足的计算资源和良好的工作自由度,目标是产出有影响力的工作,解决业务实践中的问题。

更新于 2025-05-27北京
logo of amap
社招2年以上技术类-算法

团队简介 我们是高德行中智能团队,我们的使命是基于高德海量高质的数据,最前沿的AI算法,最可靠的通用工程架构,打造有温度、有惊喜、科技感十足的下一代出行体验; 在这里,我们一起建设应对超大业务规模和场景,超高业务复杂度的高效、可靠、鲁棒的技术架构;一起用最前沿的机器学习、深度学习、AI算法探索智慧出行最具挑战性的行业难题;一起用最尖端的AIGC、LLM/LVM、多模态理解与生成技术;基于语音、视觉、位置等多模态信息搭建高吞吐、低时延、强智能、真人感的Agent体系,打造全新人和环境交互形态; 职位描述 探索下一代多模态出行体验 基于全双工多模态agent,构建人和环境的全新交互形态

更新于 2025-12-01北京
logo of quark
社招3年以上技术类-开发

1.负责基于语音大模型的voice agent研发工作,包括ASR+LLM+TTS的应用技术以及语音端到端大模型应用工程开发 2.参与语音模块中间件的架构设计与开发,参与语音相关文本大模型链路的开发 3.与算法团队、产品团队、客户端团队紧密合作,解决技术难题,推动产品迭代 4.研究并应用前沿的语音工程技术,持续优化系统性能和用户体验

更新于 2025-08-01北京
logo of cainiao
社招5年以上技术类-开发

1、负责 Voice Agent 中控编排系统(Orchestrator)的设计与落地 2、构建 ASR → NL → LLM → TTS 端到端语音链路并做工程化优化(并发控制、低延迟优化、分片流式处理、错误恢复机制) 3、设计与优化 Prompt 工程、Function Calling、工具调用、Agent 状态机 4、构建 Voice Agent 的“中断/打断”检测体系与决策引擎,包括不限于:音频能量检测、ASR 级别中断词库、LLM-based interrupt classifier、优先级调度。 5、推动 Agent 系统的质量体系建设,包括不限于:自动化评测、回放系统、Agent Trace、模型响应审计、Latency Profiling。 6、深度参与 Voice Agent 的性能优化,如:Token 成本优化、缓存策略、向量库优化、ASR/TTS 服务吞吐提升、服务并发治理。吞吐、并发、缓存、Token 成本 7、跨团队协作,与产品/算法/SRE 共同推进 Voice Agent 场景落地,包括不限于:新功能快速落地、A/B 实验、Agent 行为修正。 8、跟踪 Voice/LLM/Agent 前沿技术,例如:语音大模型(Whisper/Salmonn)、MCP、Multi-Agent、上下文压缩、OpenAI Realtime API

更新于 2025-12-09杭州