网易资深多模态算法工程师
任职要求
1. 硕士及以上学历,计算机科学、人工智能、电子工程等相关专业毕业,具备图像识别、计算机视觉、多模态建模领域扎实的理论基础与工程经验; 2. 熟练掌握至少一种主流深度学习框架(如PyTorch、TensorFlow),具备优秀的算法实现、模型优化及工程落地能力; 3. 具备以下至少一项领域的研究或实际项目经验: a. 多模态预训练模型的应用与优化(如InternVL3、Qwen2.5-VL等); b. 内容安全审核算法的开发(违规图像识别、视频检测、跨模态内容匹配等); c. 活体检测、人脸识别、身份验证等计算机视觉任务; 4. 具备较强的算法问题分析和系统级建模能力,能够清晰、高效地沟通与协作; 5. 具有大模型的训练、推理性能优化及落地经验者优先;熟悉大模型微调技术(如SFT、LoRA)及推理加速策略者优先。
工作职责
1. 负责多模态大模型(涵盖图像、视频、音频、文本等模态)在内容安全、活体检测、人脸识别、内容理解等场景的算法研发与性能优化; 2. 探索和实现图像、视频、文本等多模态数据的统一建模与高效表征学习,提升模型在内容审核、短视频内容理解等任务中的泛化性和鲁棒性; 3. 紧密跟进与研究业界领先的大模型技术,如InternVL3、Qwen2.5-VL等,探索并落地其在图文审核、视频内容审核、身份核验等业务场景中的应用策略及精调方法; 4. 负责构建并持续优化模型训练及推理系统,显著提升多模态模型在安全审核领域的准确率、召回率与实时响应性能; 5. 探索并实现文本生成图像技术在内容生成与审核中的应用,提升系统的生成与理解能力; 6. 与产品、工程等相关团队密切合作,推动多模态审核、识别系统的业务落地,实现业务场景的闭环验证与持续迭代优化。
1、负责基础模型和生成式人工智能的基础能力建设和业务落地,包括但不限于文本生成/翻译、图生文、深伪技术、大模型高效训练/推理等等,追踪业界最前沿进展,并进行前瞻性的技术研究; 2、带领团队将AIGC相关技术在广告、电商、短视频、直播等商业产品的内容理解上落地,构建新一代基于大模型的商业化生态; 3、负责大模型算法团队的项目规划、团队建设、跨团队合作,打造行业领先的内容理解算法团队。
-负责AIGC团队多模态相关业务的算法研发,工作内容包括但不限于:图像/视频的生成与理解,如图像编辑、文生图、图生图、图生视频、语义匹配等 -负责AIGC多模态中台能力建设,追踪并落地应用多模态前沿技术 -负责模型训练和推理性能优化,探索多模态算法新范式 -探索AIGC在具体业务的产品新形态
团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 我们正在寻找对多模态技术充满热情的算法工程师,加入我们的研发团队。您将专注于多模态理解与生成,推动其在高德扫街榜等热门应用中落地,为用户提供更智能、更沉浸的服务。 主要职责: 1、多模态大模型研发:开发业界领先的图文多模态大模型,实现高质量场景理解和内容生成; 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等); 3、业务场景落地:将多模态技术应用于扫街榜等实际业务场景,与产品、工程团队合作,推动技术从研发到上线的全流程落地; 4、前沿技术探索:持续跟踪生成式AI、跨模态对齐、思维链、强化学习、多模态交互等最新技术趋势,提出创新性解决方案。