快手AIGC音乐多模态算法实习生
任职要求
1、有强烈的自驱力与独立解决问题的能力; 2、有计算机、人工智能、音乐工程等相关专业硕士及以上学历; 3、具备良好的编程能力,熟练使用 Python,熟悉 PyTorch 等主流深度学习框架和Linux 开发环境; 4、具备良好的英文文献阅读和撰写能力,能够主动学习和跟进前沿技术动态; 5、熟悉深度学习、信号处理等相关理论知识,具备音频处理、音乐生成、语音合成等相关项目/研究经验者优先;熟悉音频 Codec(如 VQ、RVQ、Encodec、DAC 等)、LLM(如 LLaMA、Qwen 等开源模型)、Diffusion/Flow Matching(如 Stable Audio、F5TTS、MMAudio 等)、Vocoder(如 HiFi-GAN、BigVGAN 等)等行业主流算法者优先;熟悉大模型预训练/微调/后训练等训练策略者优先; 6、有顶会/期刊论文者优先,如 ACL/ACMMM/ICASSP/INTERSPEECH/CVPR/ECCV/ICCV/NeurIPS/ICLR/ICML/TASLP/TMM/PAMI 等,在重要算法比赛中取得过优秀名次的候选人优先; 7、对技术前沿有浓厚兴趣,善于利用各类技术解决复杂实际问题,有良好沟通表达及团队协作能力优先; 8、要求实习至少 6 个月以上,可长期实习者优先。
工作职责
1、研发行业领先且实用的音乐多模态算法,包括但不限于文生音乐、视频音乐生成、音乐编辑、基于歌词/发音人 prompt/哼唱等条件的歌曲生成、交互式音乐内容创作、音乐信息检索等方向; 2、跟进并调研国内外前沿的音乐多模态生成与编辑技术,协助团队完成相关算法的设计、实现与优化; 3、协助完成数据处理、模型训练、效果评估等实验工作,并产出高质量的技术报告或顶会文章; 4、积极参与团队讨论,配合工程同事推动算法落地; 5、参与开源项目、技术论文撰写、专利申请等工作,持续打造业界的技术口碑及影响力。
工作职责 1. 负责音乐音频相关业务的数据处理、音频指纹流程优化工作; 2. 参与音乐相关大模型的研发,如音乐生成、音乐预训练、音乐多模态模型等; 3. 参与相关算法和系统的持续迭代和进化; 同时能够根据小红书发布业务场景,结合实际需求进行技术落地和创新;
团队介绍:负责影像业务剪映、醒图等创作工具的增长、内容分发和商业化的算法,以及数据科学相关工作,致力于激发用户创作灵感、优化创作效率和提高所创作内容的价值,并完成增长与商业化变现。 课题介绍:剪映CapCut创作工具需要更自动化的扩大模版与素材的供给,降低创作过程的难度,本课题旨在通过AIGC根据当前热点,推荐,搜索等分发线索自动生成模版、素材、音乐,大规模补充模版与素材供给,为用户提供更多创作灵感,以及根据用户上传素材,AIGC辅助自动成片。 1、基于多模态大模型(LLM/视觉/音频)技术,研发自动化内容生成系统,通过分析热点、搜索趋势及用户行为数据,构建动态生成模型,实现视频模板、风格化素材、场景适配音乐的规模化生产,提升创作工具的内容供给多样性; 2、研究用户意图深度理解模型,通过用户上传的原始素材(图片、视频片段、文字描述)分析创作目标,构建端到端的自动成片Pipeline,实现镜头分割、转场特效生成、字幕匹配、音乐适配的全流程AI化; 3、设计跨模态对齐算法,解决图文/视频/音乐的多维度语义匹配问题。
我们是网易云音乐算法团队,专注于行业领先的搜索或者推荐算法,我们致力于通过技术赋能云音乐各项业务,通过社区广场推荐,提升用户体验,产生商业化价值。 在这里你可以: 1、参与云音乐各场景相关的AIGC算法应用,使用NLP、多模态、LLM等技术,优化包括多模态内容理解、大模型交互式对话、大模型AI创作生成等业务应用的效果提升; 2、参与云音乐创新业务相关的算法优化,使用业界领先的深度学习、强化学习、图模型等,优化推荐、直播、声音、社交等业务的算法; 3、参与前沿的基础算法模型建设,包括继续预训练、视频生成微调,音乐生成训练等垂类基座模型的构建和应; 4、接触到亿级别海量、真实的用户数据,使用深度学习、强化学习、图模型等算法,发挥推荐的价值; 5、使用行业领先的大规模分布式机器学习平台,例如tensorflow等开源的工具,实现并不断优化推荐、搜索等算法。