腾讯微信基础-语音大模型算法工程师
任职要求
1.硕士或博士学位,机器学习、人工智能、数字信号处理或相关领域的专业背景; 2.深入理解语音音频信号处理、声学建模、语言模型和大模型架构; 3.在语音合成、语音识别、声纹识别中至少一个领域有深入研究和扎实的实践经验;熟悉多个领域者优先; 4.有实际推动大模型在语音识别、合成、理解等任务上取得SOTA成果或有显著性能提升经验者优先; 5.高质量相关论文NeurIPS,ICML,ICLR,ICASSP,Interspeech作者优先; 6.热爱探索AI前沿技术,具有团队精神和良好的沟通能力。
工作职责
1.研发具备通用能力的端到端语音大模型,包括多语种语音识别、语音合成、声纹识别、副语言信息理解等; 2.推动上述语音技术与团队内部大语言模型 (LLM) 的深度融合,参与设计和实现智能语音交互系统架构; 3.在微信AI探索业务中,基于微信场景数据提供技术解决方案,探索业界前沿技术在业务中的落地与指标优化。
1.负责多模态内容理解、多模态生成等算法技术在视频剪辑、多模态理解和生成业务上的落地工作:; 2.图像、视频、语音等多模态内容理解和生成算法的模型设计、训练、优化; 3.文生图、文生视频、图生视频等算法的探索和落地; 4.实现模型轻量化(知识蒸馏、量化剪枝)及推理加速,满足低延迟需求; 5.跟踪多模态大模型、世界模型等前沿方向,探索业务结合点。
1.负责 AI 异构计算平台研发,打造 NLP/视觉/语音 等算法模型跨平台部署全流程优化,实现 AI 算力在微信生态(视频号、小程序、企业微信、微信读书、微信输入法等)的通用化和普惠; 2.分析 CNN、Transformer 等常用结构在微信实际业务场景中的性能瓶颈,在 CPU/GPU/NPU 上完成高性能实现与软硬件协同调优,实现性能极致的跨平台推理引擎; 3.引导算法团队设计性能/功耗兼顾的算法。
1.负责 AI 异构计算平台研发,打造 NLP/视觉/语音 等算法模型跨平台部署全流程优化,实现 AI 算力在微信生态(视频号、小程序、企业微信、微信读书、微信输入法等)的通用化和普惠; 2.分析 CNN、Transformer 等常用结构在微信实际业务场景中的性能瓶颈,在 CPU/GPU/NPU 上完成高性能实现与软硬件协同调优,实现性能极致的跨平台推理引擎; 3.引导算法团队设计性能/功耗兼顾的算法。
1.负责AI Lab语音技术团队语音技术,包括TTS、语音压缩编码、语音前端处理等,尤其是基于AIGC算法的基础研究和应用落地。 ; 2.侧重于研发语音合成、语音转换、few-shot / zero-shot TTS、音频和音乐生成等先进算法尤其是生成类算法,并且可以融合语音识别、音频分析、语音增强、语音分离等更广泛的语音/音频任务。将有关算法成果应用于语音 / 音乐 / 音效/音频生成、语音翻译(S2TT、S2ST)、虚拟人等众多场景中。 ; 3.通过跟踪和创新,确保算法方面的行业领先,通过打造语音技术PAAS平台服务于腾讯内部各个业务场景包括游戏、社交、内容服务、广告、金融、车载助手、企业服务(如腾讯会议、企业微信、企点客服、商通、数智人)等等,帮助业务产生实际价值和打造业界领先的语音应用产品。; 4.持续关注学术界和行业的最新研究动态,参与国际会议、研讨会,与全球顶级团队进行交流合作。。