logo of tencent

腾讯语音算法研究员(深圳/北京)

社招全职4年以上TEG技术地点:深圳状态:招聘

任职要求


1.计算机科学、人工智能、语音处理、机器学习或相关领域的硕士或博士学位。 ;
2.至少4年在语音、自然语言、图像生成、音乐生成、语音翻译、数字人或相关领域的研究研发经验,并在顶级会议或者期刊上发表过相关领域论文。;
3.熟悉深度学习、神经网络以及相关的开源工具和框架(如TensorFlowPyTorch)。 ;
4.具备出色的编程能力,熟练掌握Python或其他相关编程语言,有C++或者Go语言开发经验者优先。。 ;
5.具备良好的团队合作精神、沟通能力、同理心以及解决问题的能力,具备较好的抗压能力。 。

工作职责


1.负责AI Lab语音技术团队语音技术,包括TTS、语音压缩编码、语音前端处理等,尤其是基于AIGC算法的基础研究和应用落地。 ;
2.侧重于研发语音合成、语音转换、few-shot / zero-shot TTS、音频和音乐生成等先进算法尤其是生成类算法,并且可以融合语音识别、音频分析、语音增强、语音分离等更广泛的语音/音频任务。将有关算法成果应用于语音 / 音乐 / 音效/音频生成、语音翻译(S2TT、S2ST)、虚拟人等众多场景中。 ;
3.通过跟踪和创新,确保算法方面的行业领先,通过打造语音技术PAAS平台服务于腾讯内部各个业务场景包括游戏、社交、内容服务、广告、金融、车载助手、企业服务(如腾讯会议、企业微信、企点客服、商通、数智人)等等,帮助业务产生实际价值和打造业界领先的语音应用产品。;
4.持续关注学术界和行业的最新研究动态,参与国际会议、研讨会,与全球顶级团队进行交流合作。。
包括英文材料
机器学习+
学历+
深度学习+
TensorFlow+
PyTorch+
Python+
C+++
Go+
相关职位

logo of tencent
社招2年以上混元助手-其他技

1.跟踪业界最新的语音生成算法研究,探索下一代语音、音频生成新范式,拓展语音生成边界能力; 2.探索多模态语音大模型的前沿技术,结合文本、语音、视觉等技术提升语音交互体验; 3.负责语音大模型的技术研发工作,推动模型性能提升与创新应用。

更新于 2025-10-16
logo of sensetime
社招算法研究

1. 负责大语言模型、多模态大模型(文本、图像、语音等)的核心算法研发,包括模型 SFT微调、强化学习后训练、推理优化等关键环节,持续提升模型的效果、效率与稳定性。 2. 跟踪国内外大模型领域的前沿技术(如 Transformer 架构改进、多模态融合技术等),并结合业务场景进行技术调研与创新落地。 3. 针对具体业务需求(如智能客服、内容生成、代码辅助等),设计训练数据处理与清洗、大模型微调、强化学习后训练方案,解决实际业务问题。 4. 通用智能体框架设计与开发,智能体虚拟环境搭建,智能体基座模型的SFT后训练和强化学习后训练。 5. 与工程开发、产品设计等团队紧密协作,推动大模型技术从研发到产品化的全流程落地,输出技术文档与方案说明。

更新于 2025-09-24
logo of sensetime
校招算法研究

1. 实时视频生成算法研究: 紧密追踪并深入研究实时视频生成领域的最新进展,积极探索新的模型架构、训练范式、优化策略和硬件加速方案,实现并验证工业界可落地的方案; 2. 模型设计与优化: 负责实时视频生成模型的设计、训练、评估和优化,在保证视频质量的同时,大幅提升生成速度和计算效率; 3. 性能瓶颈分析与解决: 针对实时性要求,深入分析现有算法和系统的性能瓶颈,并提出有效的解决方案,确保视频生成流程的流畅与高效。

更新于 2025-07-28
logo of sensetime
校招算法研究

1. 参与多模态模型的训练(Pretrain、Post-Training、RL),可处理图像,文本,语音等多模态数据,负责网络结构与训练策略优化等 2. 探索多模态领域内的最新研究成果和技术进展 3. 构建和维护多模态数据集,负责多模态大模型的业务落地和推广 4. 将研究内容总结为技术文档、论文、专利或技术报告

更新于 2025-08-19