logo of quark

夸克千问C端事业群-音频多模态理解算法专家-杭州/北京/上海

社招全职2年以上技术类-算法地点:北京 | 杭州 | 上海状态:招聘

任职要求


1. 计算机、信号处理、数学等相关专业硕士/博士学位,3 年以上相关工作经验;
2. 在语音识别、音乐理解、音频分类、声学事件检测或多模态理解领域有深入研究,具备大规模数据训练经验;
3. 熟练掌握 PyTorch/Dee…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责音频多模态理解大模型的研发,包含语音识别、语音翻译、副语言理解、音频事件检测或音频captioning等任务的基础研究和应用落地;
2. 研究音频编码器、跨模态对齐、强化学习、多任务学习或语音端到端等技术方向;
3. 跟踪并落地领域内前沿论文,保持技术方案的领先性。
包括英文材料
学历+
语音识别+
PyTorch+
DeepSpeed+
还有更多 •••
相关职位

logo of quark
社招3年以上技术类-算法

1、语音合成文本分析,韵律预测,注音等技术研发; 2、熟悉常见的声学模型和声码器,具有相关的开发和研究经验 3、熟悉声音转换相关算法和技术; 4、熟悉通用合成引擎搭建及优化,具备云上和端上引擎优化经验。 5、深入调研和关注音频/NLP/多模态等方向的前沿技术,持续探索语音合成技术的新能力和新应用。

更新于 2025-12-22北京|杭州
logo of quark
社招2年以上技术类-算法

1. 负责音频多模态生成大模型的研发,包含语音合成、音乐生成、音效生成和歌曲生成等任务的基础研究和应用落地; 2. 研发基于扩散模型(Diffusion Models)或自回归模型(AR)的音频生成算法; 3. 研究音频表征、强化学习或语音端到端等技术方向。

更新于 2025-12-26北京|杭州|上海
logo of quark
社招2年以上技术-无线(端)

1. 负责千问 App 客户端研发,包括音频、视频、XR 等AI多模态交互功能研发。 2. 负责技术架构的升级和体验、稳定性优化。 3. 负责产品架构的改进和性能、以及稳定性优化。 4. 学习通义千问大模型能力,参与产品设计和体验改进。

更新于 2025-12-25杭州|上海
logo of quark
社招2年以上技术类-开发

团队介绍: 智能信息团队在浏览器内核、音视频播放/编辑/直播技术、网络技术、Web技术、KMP和Flutter等跨平台技术、基础性能优化等领域有十多年的深厚沉淀,构建了一套行业领先的移动研发体系来支撑多App的快速演进,服务于UC浏览器、夸克App、夸克扫描王等产品的业务创新; 在这里,您将参与到超级App的架构演进和性能优化,疑难问题攻关,在解题中快速成长,一起打造最极致的App体验; 在这里,您将接触到移动端最前沿的技术研究和实践,包括但不限于直播音视频技术、端智能、跨平台技术等; 在这里,您将有机会研究和优化渲染和音视频等各种底层技术,会有热心师兄辅助指导,在这里你获得的成长速度将远远超越大部分企业,我们求才若渴,期待您的到来。 职位描述 1. 负责UC浏览器业务开发,包括AI Agent、浏览器、网盘、小说、短剧、故事等业务开发; 2. 负责UC浏览器上技术优化和难点攻关,包括基础性能、Web体验、AI 播放器、小说渲染引擎、音频等; 3. 理解产品业务的基础上,提升产品的用户体验,技术驱动业务的发展; 4. 关注移动端前沿技术研究,通过新技术促进业务发展,持续改善性能和体验。

更新于 2025-12-09广州