快手AIGC视觉生成算法工程师/专家 - 【北京】
任职要求
1、在计算机视觉、多模态一个或多个领域的研究和实践经验,包括但不限于以下方向:视觉生成(如文生图、图生图、图像/视频生成与编辑)、多模态GPT、Diffusion模型、大规模训练、RLHF; 2、有通用图像视频生成模型、大语言模型、AIGC创新产品实战落地经验者优先; 3、顶会/期刊论文者优先,如CVPR/ECCV/ICCV/NeurIPS/ICLR/SIGGRAPH、PAMI/IJCV等,在重要算法比赛中取得过优秀名次的候选人优先;扎实的编程功底,熟悉 PyTorch 等主流深度学习框架,熟练使用 C++/ Python编程、Linux 开发环境; 4、对技术前沿有浓厚兴趣,善于利用各类技术解决复杂实际问题,强烈的自驱力,良好沟通表达及的团队协作能力。
工作职责
1、研发行业领先且实用的AIGC视觉生成大模型技术,包括AIGC视觉生成大模型、文生图、图生图、保ID的可控编辑、图文/视频多模态理解及生成技术落地; 2、构建完整的AIGC视觉生成系统链路,推动在快手创作/消费/搜索/商业化/AI生产工具等场景的规模应用,实现AIGC关键技术突破、极致打磨效果体验,在各业务场景创作用户价值; 3、负责AIGC技术及产品效果创新,持续打造业界的技术口碑及影响力。
1、研发行业领先且实用的AIGC视觉生成大模型技术,包括AIGC视觉生成大模型、文生图、图生图、保ID的可控编辑、图文/视频多模态理解及生成技术落地; 2、构建完整的AIGC视觉生成系统链路,推动在快手创作/消费/搜索/商业化/AI生产工具等场景的规模应用,实现AIGC关键技术突破、极致打磨效果体验,在各业务场景创作用户价值; 3、负责AIGC技术及产品效果创新,持续打造业界的技术口碑及影响力。
1、预研和研发具有行业竞争力的人像算法产品,聚焦在AIGC、图像生成、图像超分、图像增强等核心AI算法的技术构建和模型开发; 2、深入研究图像处理算法问题,设计并优化算法以满足产品需求,主导项目上线; 3、跟进业界最新论文和技术,对算法进行产品化预研和技术突破。
我们是谁? 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现厘米级高精地图、实时三维重建、多模态感知等核心技术的引擎,持续突破自动驾驶、AR导航、智慧交通等领域的技术边界。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 岗位职责: 1、负责研发空间智能核心技术,进行室内/室外/航拍/卫片等全场景高质量空间理解、重建与生成,包括但不限于基于图像、视频、点云、Mesh和3DGS等多种模态数据的空间智能基座与应用; 2、负责多模态大模型和视频生成大模型的预训练、微调等工作,包括但不限于数字人、生成式重建及空间生成等应用方向; 3、负责大规模多模态数据集的构建、清洗与管理,搭建高效数据流水线,保障算法训练与评估; 4、负责结合具体需求,抽象出关键算法进行研发,并持续保持及引领相关技术指标。
1、参与电商多模态大模型(MLLMs)的持续预训练和指令微调(SFT),开发精准的商品图谱、用户意图理解、跨模态检索等核心能力,赋能搜索、推荐等业务; 2、负责多模态生成算法(如Diffusion Models, VAEs等)的研发与创新,致力于解决生成内容的质量、多样性、可控性、可编辑性及采样效率等前沿问题; 3、基于大模型构建文本/图像/视频多模态创作引擎,并推动其在电商业务场景的产品化落地,包括但不限于背景替换、虚拟试衣、图生视频、海报生成等创新应用; 4、通过DPO/PPO等强化学习算法,迭代Reward Model以指导多模态素材生成,引导模型生成更符合人类偏好、审美标准及业务目标的多模态内容,最终提升用户体验和商品转化率。