logo of aligenie

智能互联数据技术及产品部-AI 语音领域数据架构师-杭州/北京

社招全职5年以上技术类-数据地点:北京 | 杭州状态:招聘

任职要求


1.  计算机科学、人工智能等相关专业,或语音学、语义学等交叉学科背景,硕士及以上学历优先。
2.  5年以上AI数据相关经验,至少2年大模型LLM/VLM)数据工作经验;有从0到1搭建数据团队或平台的经历;懂模型、懂数据、有产品 sense ,具备 AI 协同能力。
3.  技术深度:深入大模型原理;精通数据清洗与质量评估方法…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责搭建并管理面向语音领域大模型的全链路数据体系,包括数据评测、加工、合成与标注。作为模型算法团队与数据采集团队的核心桥梁,确保高质量、多样化数据供给。主要包括以下:

1.  评测体系构建:主导音频领域大模型的评测标准制定,建立涵盖理解、生成、对齐、安全四大维度的评估框架,设计人工评测与自动评测相结合的混合评估方案,搭建评测数据集、生产管线,建立与SOTA模型的对比评测机制,输出专业评测报告。
2.  数据链路架构:构建大规模语音训练数据的全生命周期处理链路:采集→清洗→去重→质量筛选→格式标准化→安全过滤,搭建数据质量监控体系,建立数据价值评估模型,确保高信息密度数据的持续供给;
3.  标注规范与质量体系:制定细粒度多模态标注规范;建立分层质检机制确保标注的质量;设计标注人员培训体系与能力认证标准,搭建领域专家标注团队。
包括英文材料
学历+
大模型+
还有更多 •••
相关职位

logo of amap
实习高德研究型实习生

团队介绍: 高德语音技术部,是负责高德全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。近期部分技术(https://arxiv.org/abs/2507.12197https://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg)https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHghttps://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg) 具体职责: 围绕voice agent/speech language model的研究工作,包括但不限于如下事项: 跟进最领先的语音交互技术,包括但不限于提出新的技术框架、改进现有的算法、持续提升相关技术及业务指标,鼓励撰写论文及申请专利; 结合业务场景,探索跨模态(文字/语音/视觉)混合训练的最佳实践,探索基于speech language model的后训练(SFT+RL)技术,持续优化交互响应、交互内容,结合规划agent/工具调用agent,持续提升voice agent的交互体验,从而反馈到高德agent的整体能力; 探索流式全双工对话中,更加高效且合理的模型架构,包括但不限于COT Reasoning in streaming full-duplex等; 海量的语音数据,尤其是对话数据的处理构建:定性分析、定量评估、参与设计自动评估框架,研发 scalable 的改进方案,持续提升数据质量;

更新于 2026-02-04北京
logo of aligenie
社招1年以上技术类-算法

团队介绍: 高德语音技术部,是负责高德全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。 具体职责: 围绕voice agent/speech language model的研究工作,包括但不限于如下事项: 1. 为满足AGI时代"活人感"语音交互的需求,致力于完成包括但不限于以下目标:复杂声学+时空信息的声学理解、通过图灵测试水平的交互节奏 / 交流内容 / 语音输出,并完成所需的技术创新; 2. 多模态对话大模型的研发、语音对话pipeline方案以及端到端方案的交互能力搭建、全双工交互能力搭建,落地到高德多项agent应用场景; 3. 跟进最领先的语音理解/语音生成/语音交互技术,包括但不限于提出新的技术框架、改进现有的算法、持续提升相关技术及业务指标,鼓励撰写论文及申请专利; 4. 探索前沿方向,如更加高效且合理的模型架构、跨模态(文字/语音/视觉)混合训练的最佳实践、基于speech language model的后训练技术、COT Reasoning in streaming full-duplex、proactive interaction,等等。结合全链路各个agent,持续提升voice agent的交互体验; 5. 海量的语音数据的处理构建:定性分析、定量评估、参与设计自动评估框架,研发 scalable 的改进方案,持续提升数据质量。

更新于 2026-03-31北京
logo of baidu
校招AIDU项目

-负责大模型应用层算法研发与调优,负责对话系统、内容生成、意图理解等核心模块的算法优化,基于LLM深入理解用户所需,提升模型在复杂场景下的推理能力与用户体验; -构建用户-内容动态匹配算法,开发结合大模型能力的个性化推荐系统;研发文本/语音/视觉多模态融合算法,探索新型人机交互范式在移动端的最佳实践,带动产品规模高速增长。

更新于 2025-06-23北京
logo of quark
社招3年以上技术类-算法

1、针对具体任务场景(如语音识别、机器翻译、图像理解、文本生成等),开展深度学习模型的算法设计与创新,探索新型神经网络架构(如Transformer、MoE、扩散模型等),提升模型在复杂环境下的准确性、鲁棒性与泛化能力。负责端到端建模优化,结合上下文理解、对话状态追踪或多模态融合技术,增强系统在连续交互场景中的语义理解与响应能力。构建高质量训练数据体系,设计自动化语料清洗、标注与增强方案,覆盖多语言、多方言、噪声或小样本等挑战性场景,支撑模型持续迭代。 2、参与大规模预训练模型(LLM、VL模型等)的研发与微调,包括指令微调、对齐优化、提示工程及推理加速,提升模型在下游任务中的表现。探索大模型在跨模态理解(图文、音视频)、实时生成、知识推理等场景的应用路径,推动AIGC、智能摘要、自动字幕、翻译等业务的技术升级。研发高效微调技术(LoRA、Adapter等)与模型服务架构,实现大模型在资源受限环境下的灵活部署。 3、推动模型轻量化与推理加速,应用模型压缩、量化、蒸馏、剪枝等技术,提升模型在移动端、边缘设备或云端的运行效率。协同工程团队完成算法模块的高性能集成,优化分布式训练与推理框架,保障系统低时延、高并发与稳定性。支持多平台部署(移动端、PC端、Web端、云服务),参与全链路性能调优与监控体系建设。 4、跟踪人工智能领域最新研究进展(CV/NLP/ASR/TTS/MT等),结合业务需求进行技术预研与原型验证。与产品、数据、工程团队紧密协作,深入理解用户场景,推动AI能力在实际产品中的创新应用。

更新于 2026-04-08广州|北京