logo of aligenie

智能互联AI创新事业部-音频算法专家/高级专家-未来生活实验室

社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1、熟悉主流音频架构(如 Whisper, VITS, AudioLM, Vall-E,CosyVoice);
2、精通音频信号处理及神经编解码器…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、研发前沿的音频大模型 (Audio-LLM),实现语音识别 (ASR)、语音合成 (TTS) 与音频理解的端到端融合。
2、优化多语种、情感化及高表现力的语音生成,提升在复杂环境(噪声、多人交谈)下的语义提取鲁棒性。
3、设计并优化多模态音乐生成模型,涵盖风格、韵律、和声、节奏等多维度生成任务。
4、探索音频 Tokenizer 优化,实现音频与 LLM 符号空间的对齐。
包括英文材料
相关职位

logo of aligenie
社招3年以上技术类-算法

1. 多模态理解:负责图文/视频/音频理解相关的算法研发,提升模型对复杂多模态场景的语义分析和推理能力。 2. 多模态生成:开发基于 Diffusion Model 或 Autoregressive 架构的生成算法(如 Text-to-Image, Text-to-Video),优化生成的质量、多样性与可控性。 3. 统一架构:设计并研发多模态大模型理解和生成的统一架构,通过高效Transformer结构、位置编码优化等,实现对图像、视频、文本的深度语义理解与高保真内容生成。

更新于 2026-04-08北京|杭州
logo of aligenie
社招3年以上技术类-算法

1. 负责音乐生成大模型算法研发,攻克文本生成音乐、音乐编辑、音色克隆等核心技术; 2. 研发音乐理解大模型,搭建高精度、细粒度音乐内容描述体系; 3. 搭建完善的音乐训练数据集,支撑模型迭代优化; 4. 落地音乐生成大模型至核心业务,保障技术实用化; 5. 跟进行业前沿,维持团队音乐生成技术领先性。

更新于 2026-04-02北京|杭州
logo of aligenie
社招3年以上

1. 负责研发大规模世界模型,提升模型对真实世界动态变化的建模能力。 2. 研究可规模化的世界模型架构,解决世界模型在长程预测中的物理一致性问题和长期记忆等问题。 3. 构建世界模型数据体系,探索世界模型在参数与数据规模上的 Scaling Laws。 4. 构建可交互的世界模型系统,并推动技术在实际产品中的落地。

更新于 2026-04-07北京|杭州
logo of aligenie
社招1年以上技术类-前端

• 负责AIGC应用Web 前端开发工作,从需求评审、原型评估到前端实现和上线的完整闭环。 • 与产品经理、设计师紧密合作,理解业务目标和交互方案,保障 AI 交互场景有流畅、直观的用户体验。 • 关注前端与 AI 相关的新技术、新体验形式,探索并实现前沿的AI技术,将其与产品结合,创造富有价值的产品 • 应用系统性能调优,优化产品体验,稳定性能力建设,构建鲁棒的AI应用 • 参与前端自动化测试、E2E 测试和可观测性建设,提升整体稳定性。

更新于 2026-04-03北京|杭州