夸克千问C端事业群-语音多模态交互算法专家-杭州/北京/上海
任职要求
1. 计算机、信号处理、数学等相关专业硕士/博士学位,3 年以上相关工作经验; 2. 在语音端到端、多模态端到端对话、语音实时同传、多模态理解与生成一体化等领域有深入研究,具备大规模数据训练经验; 3. 熟练掌握 PyTorch…
工作职责
1. 负责研发语音端到端、语音Agent、多模态交互、语音实时同传等任务的基础研究和应用落地; 2. 负责研究语音生成与理解一体化模型架构、强化学习、统一的语音表征等技术方向; 3. 跟踪并研究实现业内顶尖成果,结合业务场景实现算法的工程化部署。
千问学习算法团队致力于使用AI技术重塑面向未来的学习体验。在这里您将与我们一起挑战前沿的产品技术问题,并收获服务千万级用户的成就感和影响力。 1. 负责面向场景的多模态大模型研发,包括图文、视频、音频等多个模态的预训练,探索多模态的数据质量评估和清洗方法; 2. 负责对模型的训练数据、训练策略、模型结构等进行深入分析,指导评测方式迭代以及模型训练策略优化; 3. 负责视觉深度推理、数字化理解、实时语音交互对话、视频生成等能力建设; 4. 负责跟踪和研究多模态大模型前沿技术调研、落地、对业务进行优化; 5. 负责对各业务场景下相关技术问题进行分析、算法设计、研发以及推动上线,提升业务效果;
● 语音核心功能运营 负责语音功能使用率、留存、转化的数据研究、策略制定与落地(语音输入、播报、搜索、实时通话等);设计并验证增长实验(AB 测试、漏斗分析、转化优化、运营策略试点)并对结果负责;形成月度/季度运营复盘、策略与计划。 ● 用户洞察与体验优化 基于数据分析、用户访谈、行为洞察,提出产品优化策略,驱动产品迭代;能独立提出需求并推动产品和研发落地,确保体验和指标提升。 ● 语音模型效果运营与体验验证 与算法团队合作,负责 ASR、TTS、E2E、多模态模型的用户侧效果验证机制搭建; 输出可量化的模型端体验指标体系与效果反馈闭环。 ● 内部语音能力展示平台运营负责 独立负责平台定位、体验升级、内容体系与传播; 通过内部分享、活动、Demo运营,提高平台使用率和内部认知影响力。
● 语音核心体验提升 负责语音基础能力在产品内的体验升级(语音输入、播报、搜索、实时通话等),定制优化策略,推动语音功能使用率、留存、转化的数据指标提升,推动产品内用户语音心智建立 ● 语音交互产品功能优化 负责语音交互相关的产品功能设计和落地,深入挖掘用户需求,设计产品方案和优化策略,驱动产品迭代;能独立提出需求并推动产品和研发落地,确保体验和指标提升。 ● 推动语音模型效果提升 负责 ASR、TTS、E2E、多模态模型的用户侧效果验证机制搭建,与算法团队合作,结合产品需求,拆解合理的算法评价指标,搭建评测体系,推动算法快速迭代