米哈游【日常实习】AudioLLM 研究员
实习兼职程序&技术类地点:上海状态:招聘
任职要求
1. 计算机科学、人工智能、电子工程等相关博士学历 2. 具备大模型(LLM 或多模态)训练经验,熟悉 Transformer 架构与大规模分布式训练 3. 深入掌握以下至少一方向 • 通用音频自监督表征,如 Best-RQ, CLAP, wav2vec bert2.0 等 • Omni模型架构和多模态RL • 语音识别/情感识别/音乐信息检索算法 4…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
专注于AudioLLM通用音频理解模型的研究与开发,参与构建下一代音频基础模型和Omni多模态框架,探索语音、音乐、环境声音等多模态音频内容的统一理解建模方法,推动 audio AI 在理解、生成和交互场景中的技术突破。 核心职责: 1. 模型架构与训练:负责通用音频理解模型设计与分布式训练优化,实现语音识别、情感分析、音频问答、音乐理解、声音事件检测等多任务统一建模 2. 数据管线:设计并落地大规模多模态音频数据 pipeline,完成数据对齐、质量控制与自动标注 3. 跨模态融合:研究音频编码器与大语言模型融合技术,优化跨模态注意力与统一特征表示
包括英文材料
学历+
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
Transformer+
https://huggingface.co/learn/llm-course/en/chapter1/4
Breaking down how Large Language Models work, visualizing how data flows through.
https://poloclub.github.io/transformer-explainer/
An interactive visualization tool showing you how transformer models work in large language models (LLM) like GPT.
https://www.youtube.com/watch?v=wjZofJX0v4M
Breaking down how Large Language Models work, visualizing how data flows through.
语音识别+
https://www.youtube.com/watch?v=mYUyaKmvu6Y
Learn how to implement speech recognition in Python by building five projects.
https://www.youtube.com/watch?v=sR6_bZ6VkAg
How Rev.com harnesses human-in-the-loop and deep learning to build the world's best English speech recognition engine
还有更多 •••
相关职位
实习虎鲸文娱2026
1、负责动画剧集的前期开发与立项 2、保障项目的上线时间和品质,监制动画制作 3、大量阅读网络文学,熟悉男频玄幻品类,甄选分析有改编潜质的作品,作为IP储备 4、探索动漫行业与AIGC技术应用的结合,推进动漫生产质量和效率的提升
更新于 2025-06-24北京