夸克千问C端事业群-音频多模态生成算法专家-杭州/北京/上海
任职要求
1. 计算机、信号处理、数学等相关专业硕士/博士学位,3 年以上相关工作经验; 2. 在语音合成、音乐生成、音效生成或语音端到端等领域有深入研究,具备大规模数据训练经验; 3. 熟练掌握 PyTorch/DeepSp…
工作职责
1. 负责音频多模态生成大模型的研发,包含语音合成、音乐生成、音效生成和歌曲生成等任务的基础研究和应用落地; 2. 研发基于扩散模型(Diffusion Models)或自回归模型(AR)的音频生成算法; 3. 研究音频表征、强化学习或语音端到端等技术方向。
1. 负责音频多模态理解大模型的研发,包含语音识别、语音翻译、副语言理解、音频事件检测或音频captioning等任务的基础研究和应用落地; 2. 研究音频编码器、跨模态对齐、强化学习、多任务学习或语音端到端等技术方向; 3. 跟踪并落地领域内前沿论文,保持技术方案的领先性。
1、语音合成文本分析,韵律预测,注音等技术研发; 2、熟悉常见的声学模型和声码器,具有相关的开发和研究经验 3、熟悉声音转换相关算法和技术; 4、熟悉通用合成引擎搭建及优化,具备云上和端上引擎优化经验。 5、深入调研和关注音频/NLP/多模态等方向的前沿技术,持续探索语音合成技术的新能力和新应用。
1. 负责千问 App 客户端研发,包括音频、视频、XR 等AI多模态交互功能研发。 2. 负责技术架构的升级和体验、稳定性优化。 3. 负责产品架构的改进和性能、以及稳定性优化。 4. 学习通义千问大模型能力,参与产品设计和体验改进。
团队介绍: 智能信息团队在浏览器内核、音视频播放/编辑/直播技术、网络技术、Web技术、KMP和Flutter等跨平台技术、基础性能优化等领域有十多年的深厚沉淀,构建了一套行业领先的移动研发体系来支撑多App的快速演进,服务于UC浏览器、夸克App、夸克扫描王等产品的业务创新; 在这里,您将参与到超级App的架构演进和性能优化,疑难问题攻关,在解题中快速成长,一起打造最极致的App体验; 在这里,您将接触到移动端最前沿的技术研究和实践,包括但不限于直播音视频技术、端智能、跨平台技术等; 在这里,您将有机会研究和优化渲染和音视频等各种底层技术,会有热心师兄辅助指导,在这里你获得的成长速度将远远超越大部分企业,我们求才若渴,期待您的到来。 职位描述 1. 负责UC浏览器业务开发,包括AI Agent、浏览器、网盘、小说、短剧、故事等业务开发; 2. 负责UC浏览器上技术优化和难点攻关,包括基础性能、Web体验、AI 播放器、小说渲染引擎、音频等; 3. 理解产品业务的基础上,提升产品的用户体验,技术驱动业务的发展; 4. 关注移动端前沿技术研究,通过新技术促进业务发展,持续改善性能和体验。