阿里云算法工程师-音频算法
任职要求
【必备项】 1、电子信息/通信/计算机相关专业硕士及以上学历; 2、熟悉C/C++,Python,掌握深度学习技能,具备…
工作职责
阿里云是国内领先的音视频服务云厂商,业务涵盖直播、点播、智能媒体服务和实时音视频通信等方面。通过先进的音视频技术和强大的云计算能力,为各个行业提供高性能、高可靠、灵活智能的音视频服务。 具体职责包括不限于: 1、视频云直播、连麦,点播,短视频,媒体生产与处理等服务相关的实时/非实时的音频分析和处理; 2、音频处理算法,包括多场景降噪、自动增益控制、回声消除等; 3、音频特效算法研发,包括变调变速、机械音、性别老幼、拟物等各类变声以及说话人转换,虚拟3D声,HRTF; 4、音频分析,包括鼓掌、欢呼等特征音频标定,音乐鼓点标定,音乐风格分类、情绪分类等。
1.负责企业微信音频 AI 相关算法的研究与落地,包括但不限于语音识别(ASR)、语音合成(TTS)、声纹识别、音色转换等方向; 2.负责热词定制、领域自适应、说话人分离等场景化能力的算法设计与优化; 3.探索音频大模型在企业办公场景的创新应用,推动模型训练、微调及端侧部署落地; 4.跟进语音/音频领域前沿技术进展(Whisper、SpeechGPT 等),持续提升核心指标与用户体验; 5.与客户端、后台团队协作,完成算法从原型验证到工程化落地的全链路交付。
1、负责设计和实现游戏客户端的核心功能、系统和模块,包括用户界面、渲染、输入、音频、动画、物理等 2、开发和优化游戏客户端的性能、帧率和内存占用,确保游戏的流畅性和响应性 3、协助美术、策划建立高效的游戏内容制作流程,理解和实现游戏的需求和功能 4、协助美术、策划开发相关工具链,优化程序设计和工程结构 5、熟悉游戏开发工具和技术,如游戏引擎、集成开发环境、版本控制系统等
在算力驱动的 AGI 和人文精神的烟火气交汇之处,我们真诚邀请对大模型 Omni Model 有热情的同学加入,共同打造更具影响力的智能系统。你会成为团队的一员,并和其他同事协作,共同研发 SOTA 的 Omni Model。期待你以务实和客观的科学态度来推进技术的进展,不被过往经验裹挟、不被主观偏好影响。期待你除了算法外仍然是为出色的工程师。期待你对技术有强烈的好奇心和开放心态。 区别于传统 ASR / TTS 级联技术,我们希望打造端到端的 Omni Model 在实时交互中释放大模型的智力水平,彻底改变以 Chatbot 文字为主的人机交互界面 岗位说明:你会负责围绕大模型 Omni Model 构建语音模态的相关研究工作,包括但不限于如下事项 海量的语音数据处理和构建:定性分析、定量评估数据质量,并给出 scalable 的改进方案;探索跨模态(文字/视觉/语音)混合训练的最佳实践; 探索更加高效且合理的模型架构,让模型更加理解音频,同时让模型具备更好的语音合成能力 研究并探索基于 Omni Model 的 Post Train,包含但不限于 SFT 和 RL