高德地图AIGC多模态算法工程师-视频生成/理解方向-APP平台业务
任职要求
职位要求 1.理工科:计算机相关的硕士/博士在读; 2.在图像/视频生成领域有一定的经验,对大模型,diffusion,auto-regressive,RL,GRPO等相关技术掌握 3.对视频生成的aligment,high quality,long video,推理加速等方面有一定的研究 4.熟悉至少一种深度学习框架,如TensorFlow、PyTorch等; 5.良好的团队合作精神和沟通能力。 加分项: 1.在人工智能顶级会议(CVPR/ICCV/ECCV/ICLR/NeurIPS/ICML等)或期刊上发表过相关论文。 2.知名国际比赛获得Top3名次。
工作职责
团队介绍: 我们团队在多模态大模型,视频生成/视频理解等多个方向都有业界影响力的工作产出,在这里,你将与算法精英共事,提升你的技术实力和创新能力。团队可以为你提供足够的计算资源和数据资源。团队承接公司核心业务,深耕人工智能前沿领域,在业内有持续影响力,多篇论文入选paper digest最有影响力论文名单。 岗位职责包括但不限于: 1. 负责视频生成/视频理解技术的前沿技术的研究,并且能够使用到落地的视频生成模型中,提升视频生成模型的效果, 2. 针对视频生成的某一个领域问题,能够做到问题建模,创新性提出优化方法和模型训练; 3. 调研前沿技术,发表顶级论文。
创作发布算法方向: 1、负责图像编辑、视频剪辑、文案创作等内容创作相关算法的研发与优化,并在社区发布、商业化&电商创作等场景落地; 2、跟进多模态大模型内容生产、Agent等相关技术的最新发展趋势,保持技术先进性,持续探索Agent在内容创作方面的潜力。 内容理解方向: 1、负责多模态内容理解、图像理解以及NLP相关的算法研发工作,提升搜索、广告、推荐、创作发布的效果和体验; 2、负责包括但不限于多模态大模型Pre/PostTrain、数据挖掘,持续优化并突破业界SOTA效果,兼具落地以获取业务线上收益; 3、紧密关注相关领域业界的最新进展,时刻保持技术先进性,探索前沿技术的落地结合点。 AIGC生成方向: 1、负责多模态生成/GAN/Diffusion等图像&视频生成相关算法研发与优化, 跟进该领域的前沿技术研究; 2、参与技术规划制定, 跟进图像&视频生成技术最新发展趋势,打造业内领先的多模态内容生成能力。; 3、推动技术在图像&视频编辑/素材生成/辅助设计/特效等领域的应用。
创作发布算法方向: 1、负责图像编辑、视频剪辑、文案创作等内容创作相关算法的研发与优化,并在社区发布、商业化&电商创作等场景落地; 2、跟进多模态大模型内容生产、Agent等相关技术的最新发展趋势,保持技术先进性,持续探索Agent在内容创作方面的潜力。 内容理解方向: 1、负责多模态内容理解、图像理解以及NLP相关的算法研发工作,提升搜索、广告、推荐、创作发布的效果和体验; 2、负责包括但不限于多模态大模型Pre/PostTrain、数据挖掘,持续优化并突破业界SOTA效果,兼具落地以获取业务线上收益; 3、紧密关注相关领域业界的最新进展,时刻保持技术先进性,探索前沿技术的落地结合点。 AIGC生成方向: 1、负责多模态生成/GAN/Diffusion等图像&视频生成相关算法研发与优化, 跟进该领域的前沿技术研究; 2、参与技术规划制定, 跟进图像&视频生成技术最新发展趋势,打造业内领先的多模态内容生成能力。; 3、推动技术在图像&视频编辑/素材生成/辅助设计/特效等领域的应用。
1、负责基础模型和生成式人工智能的基础能力建设和业务落地,包括但不限于文本生成/翻译、图生文、深伪技术、大模型高效训练/推理等等,追踪业界最前沿进展,并进行前瞻性的技术研究; 2、带领团队将AIGC相关技术在广告、电商、短视频、直播等商业产品的内容理解上落地,构建新一代基于大模型的商业化生态; 3、负责大模型算法团队的项目规划、团队建设、跨团队合作,打造行业领先的内容理解算法团队。
团队介绍: 高德地图机器学习研发部是公司AI核心技术引擎,聚焦多模态大模型、视频生成与理解、图像编辑与生成等前沿领域。团队深耕人工智能技术落地,支撑亿级用户产品,同时长期投入前沿探索,在NeurIPS/ICLR/CVPR/ACL等顶会发表多篇论文,多项成果入选“最有影响力论文”榜单。我们拥有海量数据与算力资源,鼓励创新突破,诚邀你与顶尖算法专家并肩,共同定义AI的未来!如果你渴望挑战多模态与生成式AI的技术巅峰,在视频、图像、大模型的交叉领域实现突破,欢迎加入我们!团队的github页面是:https://github.com/AMAP-ML/ 我们提供 • 参与亿级用户产品的AI核心算法研发,见证技术直接赋能业务; • 与学术大牛和工业界专家共事,持续提升技术视野; • 顶配算力资源+开放创新氛围,支持前沿探索与顶会论文发表。 具体职责包含但不限于: 1. 视觉理解任务的技术探索,要求对视觉基础任务有深入的理解,做好在商品理解、详情页的文图内容、开放图片识别等公司核心业务上的落地; 2. 多模态大模型的技术探索,要求对多模态大模型训练、文图跨模态对齐等有深入实践,做好多模态大模型的能力构建和应用; 3. 追踪领域前沿工作,沉淀技术,投稿领域顶级会议。