logo of mi

小米音频生成算法实习生

实习兼职地点:武汉状态:招聘

任职要求


1. 计算机、人工智能、应用数学等相关方向硕士及以上学历,有大模型相关经验更加;
2. 熟练掌握PyTorch等常用深度学习框架的一种或多种,优秀的算法代码开发能力,熟练使用linux开发环境。
3. 具有 一定的音视频算法实践经验,扎实的数学功底,对视频/音频生成大模型、深度学习算法有深入的理解,具备跟进领域前沿和算法创新的能力。
4. 具备…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.参与多模态音频生成大模型算法研发工作;
2.跟进特定领域的前沿进展,对算法进行优化,使算法效果达到业界领先水平;
3.参与学术研究,产出具备行业影响力的科研成果,产出顶会论文及专利。
包括英文材料
学历+
大模型+
PyTorch+
还有更多 •••
相关职位

logo of mi
实习

1.参与多模态音频生成大模型算法研发工作; 2.跟进特定领域的前沿进展,对算法进行优化,使算法效果达到业界领先水平; 3.参与学术研究,产出具备行业影响力的科研成果,产出顶会论文及专利。

更新于 2025-09-26北京
logo of xiaohongshu
校招AIGC算法

目前主流的素材混剪能力主要依赖于素材的端内容理解、表征匹配、高光检测等能力帮助一键完成整个视频剪辑过程,偏模板化,且预定义较为死板,无法支持更丰富的信息量注入,以及用户自主输入剪辑要求。 本课题希望通过大语言模型的语义指令解析能力,开放基于可自定义prompt的视频编辑能力,通过指令分解、协同主题文案生成的方式,帮助完成带有故事感文案生成能力的视频剪辑功能。主要的技术难点包括: 1、多模态理解与表征:需要模型能够深入理解不同模态内容(视频片段、图像、音频)的语义和上下文; 2、时序理解与编辑:视频混剪需要理解时序信息,包括情节发展、节奏感、转场点等; 3、文案生成和改写:可自定义主题、风格的素材文案生成能力。

更新于 2026-03-24北京|杭州|上海
logo of xiaohongshu
实习大模型

职位描述: 1) 探究、复现AI音乐生成方向的前沿技术 2) 训练AI音乐大模型的相关模块(如音频编解码器、LLM等)、模型调优 3)需要线下实习,base北京或者上海均可

更新于 2025-08-28北京|上海
logo of bytedance
社招A98852

1、支持端到端语音多模态大模型技术在字节跳动公司内外丰富的业务场景落地,解决落地过程中的前沿问题,持续优化落地效果; 2、探索前沿的多模态技术,专注语音多模态大模型的前沿技术和算法效果,追求和探索业界最前沿算法,包括但不限于语言、音乐、语音、音频的生成与理解等; 3、深入调研和关注音频/NLP/多模态等方向的前沿技术。

更新于 2025-02-17北京