vivoAIGC图像算法工程师/专家
任职要求
一、基础能力: 1)计算机、人工智能、图像处理等相关专业硕士及以上学历; 2)扎实的深度学习基础,熟练掌握 PyTorch / TensorFlow 等主流框架; 3)有扎实的coding能力,熟练掌握python和c++; 4)熟悉图像识别、检测、分割、生成等主流任务与网络结构; 5)能独立完成算法设计、模型训练、上线调优等完整流程。 …
工作职责
作为核心算法成员,参与AI图像相关算法研发,主要服务于下一代智能相册系统。主要工作包括: 一、图像理解方向: 1)开发基于多模态语义的图像理解算法:人物识别、事件聚类、情绪识别、场景识别等;构建个性化的图像语义标签体系; 2)设计图像内容质量评估模型(重复、模糊、人脸表情等)提升用户体验; 3)探索RAG、多模态图像大模型、文本大模型联动下,agent能力建设和开发。 二、 图像AIGC方向(创作与编辑): 1)研究并实现图像生成与编辑算法,如背景替换、人像美化、风格迁移、文生图,图生图等; 2)参与基于 Diffusion基础模型训练; 3)参与ControlNet、Inpainting、aigc编辑大模型等前沿应用模型的业务开发和落地;
团队介绍: 高德地图机器学习研发部是公司AI核心技术引擎,聚焦多模态大模型、视频生成与理解、图像编辑与生成等前沿领域。团队深耕人工智能技术落地,支撑亿级用户产品,同时长期投入前沿探索,在NeurIPS/ICLR/CVPR/ACL等顶会发表多篇论文,多项成果入选“最有影响力论文”榜单。我们拥有海量数据与算力资源,鼓励创新突破,诚邀你与顶尖算法专家并肩,共同定义AI的未来!如果你渴望挑战多模态与生成式AI的技术巅峰,在视频、图像、大模型的交叉领域实现突破,欢迎加入我们!团队的github页面是:https://github.com/AMAP-ML/ 我们提供 • 参与亿级用户产品的AI核心算法研发,见证技术直接赋能业务; • 与学术大牛和工业界专家共事,持续提升技术视野; • 顶配算力资源+开放创新氛围,支持前沿探索与顶会论文发表。 具体职责包括但不限于: 1. 视频生成:负责视频生成技术的前沿技术的研究,对AIGC的diffusion和auto-regressive技术有深入了解,在T2I/AIGCT2V/I2V上面有一定的研究,图文对齐,长视频生成等有一定的研究,做好视频生成在高德业务(广告,POI详情页等)中的进行落地。 2. 视频理解:能够使用和优化多模态大模型对用户上传的视频进行质量理解,标签,densecaption,视频summary等生成,作用到视频的搜索,广告,推荐等业务的落地。 3. 世界模型: 参与世界模型的构建,能够使用最新的视频生成技术,3D技术等构建符合人类物理规律的统一的世界模型,在高德的业务进行落地。 4. 紧跟技术前沿和技术沉淀,形成顶会论文和专利。
团队介绍: 我们团队聚焦多模态模型、大语言模型、扩散模型的前沿探索和算法应用。团队承接公司核心业务,深耕人工智能前沿领域,在业内有持续影响力,在NeurIPS/ICLR/CVPR/ACL/EMNLP等顶会已发表多篇论文。 具体职责包括但不限于: 多模态模型、扩散模型、图像编辑的研究和应用,包含但不限于文本、图像的跨模态对齐和AIGC内容生成。 大语言模型的前沿探索和应用,包括但不限于SFT和RLHF算法、CoT、Hallucination、Agent等领域的探索与研究; 大模型的效率研究,包括但不限于大模型的量化、蒸馏、训练与推理加速。
团队介绍: 高德地图机器学习研发部是公司AI核心技术引擎,聚焦多模态大模型、视频生成与理解、图像编辑与生成等前沿领域。团队深耕人工智能技术落地,支撑亿级用户产品,同时长期投入前沿探索,在NeurIPS/ICLR/CVPR/ACL等顶会发表多篇论文,多项成果入选“最有影响力论文”榜单。我们拥有海量数据与算力资源,鼓励创新突破,诚邀你与顶尖算法专家并肩,共同定义AI的未来!如果你渴望挑战多模态与生成式AI的技术巅峰,在视频、图像、大模型的交叉领域实现突破,欢迎加入我们!团队的github页面是:https://github.com/AMAP-ML/ 我们提供 • 参与亿级用户产品的AI核心算法研发,见证技术直接赋能业务; • 与学术大牛和工业界专家共事,持续提升技术视野; • 顶配算力资源+开放创新氛围,支持前沿探索与顶会论文发表。 具体职责包含但不限于: 1. 视觉理解任务的技术探索,要求对视觉基础任务有深入的理解,做好在商品理解、详情页的文图内容、开放图片识别等公司核心业务上的落地; 2. 多模态大模型的技术探索,要求对多模态大模型训练、文图跨模态对齐等有深入实践,做好多模态大模型的能力构建和应用; 3. 追踪领域前沿工作,沉淀技术,投稿领域顶级会议。
我们是谁? 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现厘米级高精地图、实时三维重建、多模态感知等核心技术的引擎,持续突破自动驾驶、AR导航、智慧交通等领域的技术边界。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 岗位职责: 1、负责研发空间智能核心技术,进行室内/室外/航拍/卫片等全场景高质量空间理解、重建与生成,包括但不限于基于图像、视频、点云、Mesh和3DGS等多种模态数据的空间智能基座与应用; 2、负责多模态大模型和视频生成大模型的预训练、微调等工作,包括但不限于数字人、生成式重建及空间生成等应用方向; 3、负责大规模多模态数据集的构建、清洗与管理,搭建高效数据流水线,保障算法训练与评估; 4、负责结合具体需求,抽象出关键算法进行研发,并持续保持及引领相关技术指标。