快手【快Star-X实习】音频/音乐AIGC算法工程师
任职要求
1、硕士及以上学历,机器学习、模式识别、信号处理等计算机相关专业优先; 2、有较丰富的语音/音频/音乐生成大模型相关领域经验; 3、熟练掌握C/C++、Python,有较强的代码实现能力; 4、具有独立解决问题的能力,良好的表达能力、沟通能力和团队合作意识。 加分项: 1、有T2A、V2A、TTS和音乐生成大模型技术研发经验者优先; 2、相关顶会或期刊上发表论文者优先(ICASSP,Interspeech,ISMIR,ICML,AAAI,NIPS等)。
工作职责
1、负责AI音频/音乐生成大模型关键算法研发和优化,包含但不局限于T2A、V2A和AI歌曲生成等方向; 2、负责跟进行业前沿技术发展趋势,跟踪国际最新技术发展方向; 3、推动音频/音乐AIGC技术在快手各业务场景中的落地,探索音频/音乐生成技术在业务中的新玩法和业务创新。
1、打造最适合短视频、直播、搜索推荐、电商、创作者玩法的多模态大模型,为快手的各项业务提供基座模型技术支持。多模态技术是通向AGI的重要方法和里程碑,期待和更多对多模态技术感兴趣的同学一起打造真正带来价值的模型算法技术; 2、深度探索多模态大模型的多阶段预训练、监督微调和RLHF等技术,打造业界第一梯队的多模态大模型,赶超GPT-4o、Gemini Pro等闭源模型的实际使用效果; 3、图片、语音、音频和视频多种模态信号的高效处理方式探索,提供对各类信号最精准的理解能力; 4、混合专家、蒸馏剪枝等兼顾模型性能和效果的技术探索。
1、打造最适合短视频、直播、搜索推荐、电商、创作者玩法的多模态大模型,为快手的各项业务提供基座模型技术支持。多模态技术是通向AGI的重要方法和里程碑,期待和更多对多模态技术感兴趣的同学一起打造真正带来价值的模型算法技术; 2、深度探索多模态大模型的多阶段预训练、监督微调和RLHF等技术,打造业界第一梯队的多模态大模型,赶超GPT-4o、Gemini Pro等闭源模型的实际使用效果; 3、图片、语音、音频和视频多种模态信号的高效处理方式探索,提供对各类信号最精准的理解能力; 4、混合专家、蒸馏剪枝等兼顾模型性能和效果的技术探索。
1、依托快手海量内容生产、消费、流量数据,基于短视频、直播等业务生态,挖掘用户画像属性,构建公司级用户画像数据体系和平台产品,深度参与创作者、直播、运营、增长等业务策略方案制定及实施,直接为业务提效赋能并达成新的增长点; 2、基于业务策略服务方案,面向全站用户、内容、社区沉淀数据标签资产至数据中台,为业务运营决策提供基础标签能力支撑,并不断挖掘、萃取数据价值; 3、基于海量、异构、高维的时空大数据,建设精准的全域空间实体数据体系,搭建全方位的地理位置服务(LBS); 4、建设业内一流的设备指纹引擎,整合快手海量多来源数据,建设全站统一的ID-Mapping服务框架。