阿里巴巴晓天衡宇-多模态评测专家-音频
社招全职3年以上地点:杭州状态:招聘
任职要求
1. 硕士及以上学历,语言类(语言学、汉语言、外语等)、音乐技术类(录音工程、声音设计、音乐工程等)、统计学等专业优先,1年以上AI产研经验优先; 2. 有AI语音产品、音频效果评测、TTS音色质量评估等工作经验者优先; 3. 听力好,对音频质量(语音、歌声、音效、音乐)有感知,对交付物有极高要求,尊重常识和统计学; 4. 具体要求: 技术原理:熟悉语音合成、语音识别、音效合成、歌声合成中至少1个领域的技术实现架构,熟悉主流音频大模型基…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 负责视频生成模型中音频方向各任务的评估工作,包括但不限于:通用及专项评测集构建、主观评估方案设计、评测培训宣贯、评测数据校验、评测报告撰写等,对评估结果负责; 2. 负责音频算法研发流程中各模块真实能力的评估工作(数据集质量、单点及e2e能力等),通过敏捷评测等机制,设计流程实验,及时暴露诊断反馈问题; 3. 追踪学界、工业界前沿成果,在模型与听觉感官对齐、人类偏好数据建设等交叉领域持续钻研创新; 4. 管理内外部评测与精标执行团队,提升执行团队工作效率。
包括英文材料
学历+
语音合成+
https://www.ibm.com/think/topics/text-to-speech
Text to speech (TTS) is a type of technology that converts text on a digital interface into natural-sounding audio.
语音识别+
https://developer.nvidia.com/blog/essential-guide-to-automatic-speech-recognition-technology/
Over the past decade, AI-powered speech recognition systems have slowly become part of our everyday lives, from voice search to virtual assistants in contact centers, cars, hospitals, and restaurants.
还有更多 •••