logo of alibaba

阿里巴巴算法工程师-语音方向

实习兼职淘天集团2026届春季实习生招聘地点:北京 | 杭州状态:招聘

任职要求


1. 音频、语音、自然语言处理、等相关专业硕士及以上学历。
2. 有语音识别端到端声学建模(transformer, whisper、 qwen-omni, baichuan-omni)相关经验。
3. 有语音无监督预训练(wav2vec)经验,大语言模型与训练、SFT强化学习相关经验,语音端到端大模型audio encoder + LLM 研发工作。
4. 在顶级领域会议(如Ne…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


参与构建新一代电商语音认知引擎,通过大模型技术实现语音交互与商品理解的双向增强,打造全球领先的电商领域语音智能中枢,支撑淘宝亿级DAU场景的语音搜索、智能导购等核心业务。
1. 负责大模型语音模态的设计、开发和优化,包括但不限于语音音频数据清洗、模型设计、训练策略等方面的研究与应用。
2. 参与语音识别、语音合成、语音理解等相关大模型语音模态能力的建设,提升跨模态整体效果。
3. 跟踪、探索大模型方向,将各模态的SOTA能力集成到模型底座上,提升识别以及搜索能力,提升团队技术先进性。
包括英文材料
NLP+
学历+
语音识别+
Transformer+
SFT+
强化学习+
还有更多 •••
相关职位

logo of bilibili
实习技术类

1、负责音频相关算法研发,包括但不限于语音合成、歌声合成、声音转换、音乐理解、音乐生成等; 2、负责音频相关算法在产品中落地,建设行业先进音频内容理解和生产能力,落地公司各个业务场景; 3、跟踪前沿的算法理论,并将优秀算法应用到实际业务中,提升业务效果; 4、参与PGC语音、音乐内容的创意和制作,一同打造声音体验; 5、与多元化的团队合作,将你的语言、音乐知识应用于前沿的AI项目。

更新于 2025-03-04上海
logo of xiaohongshu
社招大模型

在算力驱动的 AGI 和人文精神的烟火气交汇之处,我们真诚邀请对大模型 Omni Model 有热情的同学加入,共同打造更具影响力的智能系统。你会成为团队的一员,并和其他同事协作,共同研发 SOTA 的 Omni Model。期待你以务实和客观的科学态度来推进技术的进展,不被过往经验裹挟、不被主观偏好影响。期待你除了算法外仍然是为出色的工程师。期待你对技术有强烈的好奇心和开放心态。 区别于传统 ASR / TTS 级联技术,我们希望打造端到端的 Omni Model 在实时交互中释放大模型的智力水平,彻底改变以 Chatbot 文字为主的人机交互界面 岗位说明:你会负责围绕大模型 Omni Model 构建语音模态的相关研究工作,包括但不限于如下事项 海量的语音数据处理和构建:定性分析、定量评估数据质量,并给出 scalable 的改进方案;探索跨模态(文字/视觉/语音)混合训练的最佳实践; 探索更加高效且合理的模型架构,让模型更加理解音频,同时让模型具备更好的语音合成能力 研究并探索基于 Omni Model 的 Post Train,包含但不限于 SFT 和 RL

北京|上海
logo of nio
实习算法

1. 参与多模态大模型语音方向的研发工作,包括但不限于语音识别、音频理解、声音事件检测、语音端到端对话等 2. 负责多模态大模型前沿算法的探索 3. 负责多模态大模型相关数据的清洗、扩增,提升数据质量 4. 参与多模态大模型的训练、优化和测试,提升模型的性能和稳定性 5. 协助团队完成相关项目的开发和落地,实现技术成果的转化

更新于 2025-07-02上海|北京
logo of amap
社招3年以上技术类-开发

1. 负责安卓/iOS/鸿蒙三端语音双工核心模块开发,聚焦导航、对话场景的音频采集与播放功能,保障低延迟、高稳定性的声音交互体验; 2. 适配多端音频架构及设备特性,优化音频设备兼容性,解决回声、噪音、断连等现场问题; 3. 参与语音传输链路客户端优化,结合音频编解码技术(如Opus/AAC)提升双工通信效率与音质; 4. 协同团队完成TTS引擎的客户端集成与效果调优,确保导航指引、对话响应等场景的语音输出自然流畅; 5. 落地语音双工交互逻辑,保障“边说边听”“自然打断”等核心体验在多场景下的稳定性。

更新于 2025-11-20北京