logo of kuaishou

快手(大模型专项)多模态AIGC算法工程师/专家(北京)

社招全职3-5年J0011地点:北京状态:招聘

任职要求


1、对基于图像、视频、语音、文本等模态内容的各类算法有一定的理解,并在如下一个或多个相关方向有深入研究:GAN 、扩散模型、图像生成、多模态等;
2、具备扎实的编程功底,熟悉 Pytorch 等主流深度学习框架,熟练使用 C ++/ Python 等至少一种编程语言,熟悉 Linux …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责多模态生成算法研发,如Diffusion Models 、 GAN 、 VAE 、 Autoregressive Models等,包括但不限文本/图像/视频生成,解决生成质量、多样性、可控性、采样效率、可编辑等问题;
2、负责端到端多模态生成式大模型的框架设计、训练与调优,构建基于生成模型的AI系统,推动多模态AIGC在快手各业务场景的产品化落地;
3、负责百亿/千亿参数量的多模态生成大模型研发,实现关键技术突破,并将前沿算法技术转化为创新产品。
包括英文材料
算法+
PyTorch+
深度学习+
还有更多 •••
相关职位

logo of kuaishou
社招5-10年J0011

1、参与电商多模态大模型(MLLMs)的持续预训练和指令微调(SFT),开发精准的商品图谱、用户意图理解、跨模态检索等核心能力,赋能搜索、推荐等业务; 2、负责多模态生成算法(如Diffusion Models, VAEs等)的研发与创新,致力于解决生成内容的质量、多样性、可控性、可编辑性及采样效率等前沿问题; 3、基于大模型构建文本/图像/视频多模态创作引擎,并推动其在电商业务场景的产品化落地,包括但不限于背景替换、虚拟试衣、图生视频、海报生成等创新应用; 4、通过DPO/PPO等强化学习算法,迭代Reward Model以指导多模态素材生成,引导模型生成更符合人类偏好、审美标准及业务目标的多模态内容,最终提升用户体验和商品转化率。

更新于 2025-09-30北京
logo of kuaishou
社招3-5年J0011

1、负责研发行业领先的AIGC素材创意生成技术,包括多模态理解、多模态检索、多模态生成等前沿技术,应用于电商、商业化、本地生活等场景的创意素材生成; 2、负责大模型(LLM、MLLM)的指令微调、RLHF等技术的深入探索与研发,提升文案内容的生成质量; 3、负责研发AIGC素材创意生成平台,实现自动化、智能化的素材创意内容的生成与推荐。

更新于 2026-04-07杭州|北京
logo of kuaishou
社招3-5年J0011

1、研发行业领先且实用的AIGC视觉生成大模型技术,包括AIGC视觉生成大模型、文生图、图生图、保ID的可控编辑、图文/视频多模态理解及生成技术落地; 2、构建完整的AIGC视觉生成系统链路,推动在快手创作/消费/搜索/商业化/AI生产工具等场景的规模应用,实现AIGC关键技术突破、极致打磨效果体验,在各业务场景创作用户价值; 3、负责AIGC技术及产品效果创新,持续打造业界的技术口碑及影响力。

更新于 2026-03-30北京
logo of kuaishou
社招3-5年J0012

音视频生成大模型评测体系建设与演进及业务保障,负责包括但不限于视频生成大模型中音频生成模块(Audio Gen)及音视频一体化的算法效果。不仅是评测的执行者,更是评测体系的架构师,通过深度的算法归因分析,驱动音频 VAE等核心组件的算法优化和迭代。 1、音视频一体化评测体系建设: 1)音频生成与音频理解相关算法、评测方法及评测指标体系具有深入理解,熟悉常见视频与音频质量评估方法,能够结合业务场景设计合理的评测方案; 2)建立从底层算子(VAE, Latent Space)到上层生成效果的全链路评测标准; 3)定义并量化音画同步性、语义关联度、音频美学表现力等关键维度; 2、Benchmark 与方法论沉淀: 1)构建具有行业领先水平的音频生成 Benchmark,涵盖音乐、环境音、音效(SFX)及人声等; 2)沉淀主客观结合的评测方法论,包括客观指标(FAD、KL Divergence、IS、CLAP Score)与专家级主观评价量表(MOS, MUSHRA); 3、深度诊断与归因分析:输出专业评测报告,深度分析,定位模型缺陷,如针对音频 VAE 压缩失真、音频扩散模型频谱缺失、相位扭曲等问题进行深度诊断,并给出改进建议; 4、前瞻性调研与实验:持续跟踪 AIGC 领域(如 ElevenLabs、Suno、Stable Audio等)前沿技术动态,将行业最新的模型能力和技术路线转化为可落地的评测方案; 5、评测工具与平台化驱动:参与或主导自动化评测工具与平台的开发,利用技术手段提升大规模音视频数据的评测效率,探索基于大模型的自监督评测(LLM-as-a-judge)等创新手段。

更新于 2026-03-25北京