腾讯腾讯云--- 音频语音识别/理解算法高级工程师
任职要求
1.硕士及以上学历,声学、信号处理等其他相关专业; 2.对于音频处理领域与背景有深刻理解,具备一定声学信号处理数学建模能力,对于大模型llm量化与训练经验、特定人声增强、端到端多语种语音识别、轻量级端侧高效语音识别、个性化声纹情绪等语音合成有实际项目,且参加过相关比赛的同学优先; 3.在Wenet、K2、Whisper等开源社区方案中任意一种实际项目开发经验的同学优先; 4.熟练使用Python、C、C++等编程语言,以及精通AI训练与推理,熟练使用Pytorch与Tensorflow优先。 加分项 1.在同等条件下,通过腾讯云认证或取得同等资格认证的候选人,我们会优先考虑。
工作职责
1.负责语音识别ASR应用涉及的效果调优与实现,比如多语种语音识别与翻译(中/英/法/日/韩/东南亚/中东等)、端侧超级轻量级高效ASR的落地实现、解决目标说话人增强的ASR相关技术的落地、声学/语意vad等; 2.负责语音识别asr-llm大模型与前沿技术调研与落地,比如更合理的语音与文本对齐、适用于多语种的模型方案、更高效的弱监督数据筛选流程等; 3.负责跟踪并复现业界最前沿的音频处理方案,并能融合优化当前效果。
1.负责语音识别ASR应用涉及的效果调优与实现,比如多语种语音识别与翻译(中/英/法/日/韩/东南亚/中东等)、端侧超级轻量级高效ASR的落地实现、解决目标说话人增强的ASR相关技术的落地、声学/语意vad等; 2.负责语音识别asr-llm大模型与前沿技术调研与落地,比如更合理的语音与文本对齐、适用于多语种的模型方案、更高效的弱监督数据筛选流程等; 3.负责跟踪并复现业界最前沿的音频处理方案,并能融合优化当前效果。
1、洞察媒体领域业界先进技术及发展趋势,以客户应用场景为假设,围绕媒体信息流(采集、传输、存储、呈现、理解、边界、生成)所需的核心技术,持续创新和突破; 2、从事媒体领域,包括:图像/视频/音频/ARVR算法的研究创新、评测及工程化落地,实现公司在媒体领域的技术竞争力领先; 3、负责媒体编解码领域标准制定,构建标准和产业发展的领导力; 4、围绕媒体基础应用,比如手机拍照、视频、ARVR、音频音效等,打造最终用户极致体验。
技术领导与架构: 负责翻译/同传类App的整体技术架构设计、技术选型与攻坚,确保应用的高性能、高可靠性与可扩展性。 核心功能开发: 主导实现实时音频流处理功能,包括低延迟采集、降噪、回声消除(AEC)、语音活动检测(VAD)。 主导实现音视频同步录制、播放与实时处理逻辑。 深度集成并优化云端或端侧AI语音识别(ASR)、机器翻译(MT)、语音合成(TTS) 引擎的SDK。 实现复杂的多语言UI与交互逻辑,如对话模式、字幕实时渲染、会议记录等。 性能优化: 持续优化应用的性能、内存占用和功耗,特别是在后台长时间运行及处理高强度音频任务时的稳定性。 代码与质量: 编写高质量、模块化、可维护的代码;建立并推行代码规范;主导Code Review,提升团队整体技术水平。 协作与沟通: 与产品经理、设计师、后端工程师及AI算法工程师紧密协作,共同定义API接口,推动产品迭代。