美团视觉内容理解大模型算法工程师
任职要求
1.具有一年以上多模态大模型算法研发经历,参与过模型训练、调优、部署等,计算机相关专业硕士及以上学历。 2.在以下领域有较深入的研究经验,包括但不限于:图像/视频分类和识别、文字识别、目标检测、图像分割。 3.在机器学习和深度学习方面具备扎实的理论基础和工程能力,熟悉PyTorch、TensorFlow等主流框架,以及transformers库。 4.有较宽的技术视野和钻研精神,主观能动性和学习能力强,能适应快速变化的技术趋势,具备良好的团队合作精神和沟通技巧。 具备以下条件优先 有AI解决方案、产品应用(GUI Agent、RAG、RPA等)背景
工作职责
1.基于多模态大模型技术,提升富文本图像、视频内容的端到端解析理解能力,如行业文档图像、电商场景图像、屏幕录制图像视频等。 2.推进建设大模型产品解决方案,推动相关算法在业务场景中落地,赋能商家入驻、企业办公、风控合规、自动化测试等业务的智能化升级。 3.负责包含但不限于优化多模态大模型的图文理解能力、协同大模型相关产品建设、服务部署落地全流程、构建流程自动化系统等。
1.从事多模态生成/理解大模型的研究与开发,包括但不局限多模态生成预训练、多模态理解、多模态数据处理、多模态后训练、多模态强化学习等跨模态算法的研发和优化,跟进并保持业界技术领先; 2.推进跨模态内容理解/生成前沿技术的创新落地。设计和优化现有算法,提高性能和准确性,确保高质量的用户体验; 3.关注多模态/NLP/CV等方向的前沿技术,及时将新技术应用到产品中。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 若你对以下一个或者多个方向感兴趣均欢迎投递: 1)多模态基础模型的研发,包括融合视觉语言的跨模态理解模型设计,提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing 等核心能力,并同时优化多模态大模型的AI infra。 2)通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,构建支持网络世界(PC/Mobile/Web/游戏)交互的通用智能体,将相关能力拓展到GUI agent,VLA,以及具身智能场景中。 3)研究理解与生成统一的模型架构,实现跨模态生成与推理的协同优化。 工作职责: 1. 多模态 pre-training:开展研究及进行实验,研究内容包括:数据清洗筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law 预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态 post-training:迭代 post-training 训练策略(SFT/RLHF),专项能力数据迭代,参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用 agent:通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,打造多模态的 test scaling laws,并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成:构建视觉统一理解生成大模型,推进多模态统一生成与理解的推理和交互新范式。
-负责多媒体内容理解场景下的大语言模型或视觉大模型的研发和应用,利用NLP、计算机视觉、多模态理解等技术提升内容体系建设效果体验,包括但不限于:SFT、prompt工程、知识增强、多模态信息融合、AIGC生成等 -负责模型算法的设计、实现和优化,包括模型选择、特征工程、模型训练、评估和部署等 -负责大规模数据集的预处理、清洗和特征提取,为模型训练提供高质量的数据 -深入研究大模型领域的前沿技术,为公司产品提供创新性的算法支持,助力已有业务的AI原生重构