米哈游【日常实习】AudioLLM 研究员
实习兼职程序&技术类地点:上海状态:招聘
任职要求
1. 计算机科学、人工智能、电子工程等相关博士学历 2. 具备大模型(LLM 或多模态)训练经验,熟悉 Transformer 架构与大规模分布式训练 3. 深入掌握以下至少一方向 • 通用音频自监督表征,如 Best-RQ, CLAP, wav2vec bert2.0 等 • Omni模型架构和多模态RL • 语音识别/情感识别/音乐信息检索算法 4…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
专注于AudioLLM通用音频理解模型的研究与开发,参与构建下一代音频基础模型和Omni多模态框架,探索语音、音乐、环境声音等多模态音频内容的统一理解建模方法,推动 audio AI 在理解、生成和交互场景中的技术突破。 核心职责: 1. 模型架构与训练:负责通用音频理解模型设计与分布式训练优化,实现语音识别、情感分析、音频问答、音乐理解、声音事件检测等多任务统一建模 2. 数据管线:设计并落地大规模多模态音频数据 pipeline,完成数据对齐、质量控制与自动标注 3. 跨模态融合:研究音频编码器与大语言模型融合技术,优化跨模态注意力与统一特征表示
包括英文材料
学历+
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
Transformer+
https://huggingface.co/learn/llm-course/en/chapter1/4
Breaking down how Large Language Models work, visualizing how data flows through.
https://poloclub.github.io/transformer-explainer/
An interactive visualization tool showing you how transformer models work in large language models (LLM) like GPT.
https://www.youtube.com/watch?v=wjZofJX0v4M
Breaking down how Large Language Models work, visualizing how data flows through.
语音识别+
https://www.youtube.com/watch?v=mYUyaKmvu6Y
Learn how to implement speech recognition in Python by building five projects.
https://www.youtube.com/watch?v=sR6_bZ6VkAg
How Rev.com harnesses human-in-the-loop and deep learning to build the world's best English speech recognition engine
还有更多 •••
相关职位
校招日常实习
包含GPU、网络、大模型框架等细分方向。 1、针对业务需求,解决算力瓶颈、通信延迟、分布式系统扩展性等问题; 2、协同算法、硬件及运维团队,构建高效、稳定的计算基础设施。 1)GPU方向:研究GPU集群的调度策略,优化资源利用率。探索混合精度计算、模型量化等GPU加速技术; 2)网络方向:设计低延迟、高吞吐的分布式网络架构(如InfiniBand/RoCE/DPU)。优化MPI、NCCL等通信库性能,解决大规模集群中的网络拥塞问题; 3)大模型工程框架方向:开发或优化大模型训练框架(如PyTorch/TensorFlow/DeepSpeed/Megatron-LM),设计分布式训练策略(模型并行、流水线并行、混合并行),提升千亿级参数模型的训练效率。研究训练加速技术(梯度压缩、显存优化、动态计算图调度)。
深圳|北京|上海
校招日常实习
负责实现和优化公司的产品功能,以及构建和维护关键服务与基础设施。 1、深入理解业务需求和产品设计,高效地实现并优化产品功能; 2、持续优化架构,提升关键服务和基础设施的稳定性与可用性; 3、通过引入新的工具和流程,提升团队的开发效率和代码质量; 4、通过与产品和前端工程师的紧密合作,共同推进产品的迭代与优化; 5、对线上问题进行快速定位并解决,对服务性能进行监控与优化; 6、参与新技术的研究和探索,为团队的技术进步和产品创新提供支持。
深圳|北京|上海
校招日常实习
1、负责参与公司产品的视觉内容,包括UI、多媒体、品牌等设计,具备一定的跨平台及多终端设计能力; 2、负责产品前期的概念创意,整体视觉风格的制定,推动产品实现及进行阶段性的品牌推广; 3、负责制定设计标准及规范,保障产品体验及设计的一致性; 4、有较好的用户体验思维,熟练掌握如AIGC等多形态的创意工具,具备较强的能力扩展性。
深圳|北京|广州