影石语音算法工程师-2026校招
任职要求
1、计算机、声学、自动化、应用数学、信号处理等相关专业硕士及以上学历; 2、具备扎实的数学和算法基础、信号处理基础等,在语音分离、语音识别、语音唤醒、声纹识别、声音事件检测、阵列算法、空间音频等一个或多个方向上有丰富的理论基础和落地经验; 3、具备优秀的coding能力,熟悉C/C++和Python开发语言,扎实的数据结构和算法功底; 4、具有良好的沟通能力、良好的团队合作精神和高度的责任心 5、有ICASSP、Interspeech等顶会论文发表者优先
工作职责
1、负责多人复杂场景语音分离与识别,开发听觉前端与asr前后端协同处理算法; 2、负责算法在具体业务场景、项目上的验证、优化和落地工作; 3、跟进行业最新算法动态,复现和优化前沿算法,保持算法在工业界和学术界的优秀
1、参与点,直播各场景音频算法,引擎和策略的研发,保障高质量的音频消费体验; 2、参与直播音频引擎的开发,包括音频采集,渲染和混音模块,在多平台完成集成和性能调优; 3、参与音频策略算法的研究,包括但不限于: ①语音降噪(Noise Suppression),回声消除(AEC)等3A算法 ②语音合成与修复等AI算法; ③抗丢包与弱网对抗技术(FEC、PLC)等编解码算法 4、跟踪业界前沿音频技术,参与3D 音效和空间音频等方向的调研与业务落地; 5、参与音频质量评测体系建设,配合进行主观/客观音质测试与问题定位。
1、在业务场景下围绕基于大模型的语音识别及合成、音乐理解及生成成等方向搭建核心技术,支撑平台业务板块,将AI语音交互技术服务赋能产品线; 2、跟进最领先的基于大模型的语音交互/音乐生成技术,包括但不限于提出新的技术框架、改进现有的算法、持续提升相关技术指标,并撰写论文及申请专利。
T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 1.负责原生多模态统一大模型的数据构建、模型结构和训练策略设计等工作,包括统一编码器和网络结构设计,合成数据策略,以及跨模态融合训练策略等。 2.通过方案的优化设计帮助模型有持续scale up能力,助力模型在多模态理解和生成任务上实现sota。 3.通过后训练强化学习提升多模态对齐、多模态推理思考能力,激发模型在下游跨语音、视觉等应用场景中的潜力。 T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper