高德地图高德-AIGC多模态生成&理解算法工程师/专家-北京
任职要求
1.计算机、数学相关的硕士/博士毕业生; 2.在多模态大模型、AIGC、图像生成、视频生成、视频理解、3D生成等领域有一定的经验,能够掌握领域内的最新技术进展,具备实现、改进新的算法能力; 3.熟悉MLLM模型、diffusion、auto-regressive、RL等技术,同时对先进技术和业务落地有一定的passion; 4.良好的团队合作精神和沟通能力。 5.在人工智能顶级会议(CVPR/ICCV/ECCV/ICLR/NeurIPS/ICML等)或期刊上发表过相关论文; 6.知名国际比赛获得Top3名次。
工作职责
团队介绍: 高德地图机器学习研发部是公司AI核心技术引擎,聚焦多模态大模型、视频生成与理解、图像编辑与生成等前沿领域。团队深耕人工智能技术落地,支撑亿级用户产品,同时长期投入前沿探索,在NeurIPS/ICLR/CVPR/ACL等顶会发表多篇论文,多项成果入选“最有影响力论文”榜单。我们拥有海量数据与算力资源,鼓励创新突破,诚邀你与顶尖算法专家并肩,共同定义AI的未来!如果你渴望挑战多模态与生成式AI的技术巅峰,在视频、图像、大模型的交叉领域实现突破,欢迎加入我们!团队的github页面是:https://github.com/AMAP-ML/ 我们提供 • 参与亿级用户产品的AI核心算法研发,见证技术直接赋能业务; • 与学术大牛和工业界专家共事,持续提升技术视野; • 顶配算力资源+开放创新氛围,支持前沿探索与顶会论文发表。 具体职责包括但不限于: 1. 视频生成:负责视频生成技术的前沿技术的研究,对AIGC的diffusion和auto-regressive技术有深入了解,在T2I/AIGCT2V/I2V上面有一定的研究,图文对齐,长视频生成等有一定的研究,做好视频生成在高德业务(广告,POI详情页等)中的进行落地。 2. 视频理解:能够使用和优化多模态大模型对用户上传的视频进行质量理解,标签,densecaption,视频summary等生成,作用到视频的搜索,广告,推荐等业务的落地。 3. 世界模型: 参与世界模型的构建,能够使用最新的视频生成技术,3D技术等构建符合人类物理规律的统一的世界模型,在高德的业务进行落地。 4. 紧跟技术前沿和技术沉淀,形成顶会论文和专利。
1、参与多模态生成算法的调研和分析,如Diffusion Models 、 GAN 、 VAE 、 Autoregressive Models等,包括但不限文本/图像/视频生成,解决生成质量、多样性、可控性、采样效率、可编辑等问题; 2、参与多模态生成算法的基础模块的研发,如 VAE、CLIP、LLM 等; 3、协助多模态生成算法的效果分析、数据优化、行业调研 等。

负责三七互娱-37手游 AIGC应用开发与服务化工作,推动多模态生成能力在公司实际业务中的高效落地。持续参与视频生成、图片生成、音乐生成、AI Agent等前沿技术在企业内外的实践与规模化应用。包括且不限于: 1. AIGC平台系统开发:保障企业级模型服务的稳定性、安全性和可扩展性,包括但不限于模型/服务自动化部署、运行监控、弹性扩缩容、自动回滚、故障自愈、全链路可观测性和 SLA 管理等。 2. AIGC多模态应用工作流的设计与开发:负责企业级多模态大模型工作流的设计与开发,包括流程自动化、工具链集成以及低/无代码应用平台的建设,助力业务智能化升级。 3. LLM 工作流编排与Multi-agent系统的设计与开发:构建Multi-agent协作系统,实现 agent自治、分布式任务调度、任务拆解与动态规划等能力,支持复杂业务场景的自动化与智能决策。
团队介绍: 近年来,以大模型为核心的生成式人工智能技术发展取得了突破性进展,视觉内容创作领域展现出前所未有的技术潜力与广泛的应用前景。我们在数字人、视觉理解、2D/3D生成&编辑、人机交互等领域深耕多年,拥有丰富的学术积累与工程实践经验。过去几年,团队在顶级会议发表论文50余篇,相关成果已在阿里集团内外如教育、培训、客服、社交等多场景落地,在多家主流手机厂商中实现深度集成,也成功服务于奥运会、亚运会、春晚等盛会,累计数亿次调用。 如果你对研发规模化的AIGC解决方案感兴趣,期望在计算机视觉、图形学与机器学习领域持续创新,推动图像、视频与3D内容创作的普惠化和产业化发展,欢迎加入我们共同探索生成式AI在视觉内容创作中的无限可能。 岗位职责具体职责包括但不限于: 1.负责视觉生成模型的核心理论与前沿进展相关研究,通过算法创新与性能优化,提升多模态内容的生成质量、多样性与可控性。 2.负责图像/视频生成、编辑与理解等的核心算法研发、系统研发和产品开发,包括文生图/视频、图生图/视频、图像/视频修复、图像/视频编辑、风格迁移等。 3.负责2D/3D数字人核心算法研发、系统研发和产 品开发,包括基于2D/3D数字人重建、2D/3D数字人生成、姿态估计、表情驱动、语音驱动等。 4.负责面向场景的空间智能算法研究、产品开发,包括子弹时间系统、4D体积视频、3D感知、空间定位等。 5.探索理解生成统一的新范式,以及更加高效的多模态生成Scaling方法,包括但不限于高效attention设计、人类反馈和强化学习、模型蒸馏、训练/推理优化、多模态Tokenizer研究。