logo of kuaishou

快手【留用实习】多模态语音大模型算法工程师

实习兼职J1010地点:北京状态:招聘

任职要求


1、硕士及以上学历机器学习模式识别、信号处理等计算机相关专业优先;
2、熟练掌握C/C++Python,有较强的代码实现能力;
3、熟悉主流的生成式大模型GPT/Diffusion以及常规的理解和生成类算法;
4、熟悉speech2speech的端到端对话/交互系统,并有基础的业务理解;
4、具备很强的自驱能力,具备良好的沟通表达能力和团队合作意识。

加分项: 
1、有自然语言、计算机视觉大模型推理等方向的基础经验者优先; 
2、国际会议或主流期刊上发表优秀论文者优先(如icassp,cvpr、Interspeech)。

工作职责


1. 负责语音多模态大模型的研究与开发,包括Pretrain、SFT、RLHF等;
2. 负责语音处理算法的研究与开发,支撑大模型训练对数据的需求;
3. 负责大模型技术在快手业务中的落地,并探索新玩法或业务创新;
4. 负责跟踪国内外前沿技术的发展和实践,保持团队技术的敏锐性。
包括英文材料
学历+
机器学习+
模式识别+
C+
C+++
Python+
大模型+
GPT+
算法+
OpenCV+
CVPR+
相关职位

logo of kuaishou
实习J1007

1、了解多模态内容生成相关算法,如Diffusion Models 、 GAN 、 VAE 、 Autoregressive Models等,包括但不限文本/图像/视频生成,解决生成质量、多样性、可控性、采样效率、可编辑等问题; 2、了解端到端多模态生成式大模型的框架设计、训练与调优,构建基于生成模型的AI系统,推动多模态AIGC在快手各业务场景的产品化落地。

更新于 2025-05-15
logo of kuaishou
实习J1007

1、打造最适合短视频、直播、搜索推荐、电商、创作者玩法的多模态大模型,为快手的各项业务提供基座模型技术支持。多模态技术是通向AGI的重要方法和里程碑,期待和更多对多模态技术感兴趣的同学一起打造真正带来价值的模型算法技术; 2、深度探索多模态大模型的多阶段预训练、监督微调和RLHF等技术,打造业界第一梯队的多模态大模型,赶超GPT-4o、Gemini Pro等闭源模型的实际使用效果; 3、图片、语音、音频和视频多种模态信号的高效处理方式探索,提供对各类信号最精准的理解能力; 4、混合专家、蒸馏剪枝等兼顾模型性能和效果的技术探索。

更新于 2025-05-14
logo of kuaishou
实习J1005

1、探索大模型与推荐算法结合的下一代推荐系统技术,充分利用大模型的领域知识和学习范式为推荐系统注入新的能量,包括但不限于文本/ID生成式推荐、模型Scaling Law、用户超长序列端到端建模等; 2、探索视频、文本和语音等多模态信号的高效处理方式以及与推荐系统对齐的能力,让推荐系统看懂、听懂和理解世界; 3、混合专家、蒸馏剪枝等兼顾模型性能和效果的技术探索; 4、紧跟行业及大模型技术发展,结合业界前沿技术和业务需求,打造大模型应用的最佳实践。

更新于 2025-05-14
logo of kuaishou
实习J1003

1. 负责LLM&图像生成&视频生成&动作生成&语音生成&多模态生成&强化学习&路径规划等相关算法的开发和研究; 2. 负责将相关算法模型进行部署和优化,并完成与相关需求部门的接口对接; 3. 负责游戏环境中相关AI需求发掘、设计、技术研发,以及推动上线落地和不断迭代优化; 4. 关注AIGC业界动态,关注AI与游戏结合的新方向,引入前沿的技术和方法,参与团队基础研究能力。

更新于 2025-06-24