蚂蚁金服蚂蚁集团-多模态产品专家(视觉/医疗文档理解方向)-健康事业群
任职要求
1、学历: 硕士学历及以上,计算机(CS)/人工智能专业背景; 2、经验: 3年以上 AI/大模型产品经验,必须有 CV(计算机视觉) 或 多模态大模型(VLM) 落地经验; 3、能力: 懂 OCR 技术边…
工作职责
1、医疗报告智能解读: 负责“阿福”的拍照/上传报告功能,核心解决体检单、化验单、处方单等复杂排版图片的结构化提取与医学结论分析; 2、视觉模型调优: 构建医疗文档的图文评测集(Benchmark),解决模糊拍摄、手写体识别、复杂表格对齐等长尾问题,降低模型幻觉; 3、多模态交互体验: 设计“拍一拍”后的交互流,让用户不仅看到数据,还能通过图片与阿福进行多轮问诊对话。
部门简介 大数据和智能实验室聚焦于基于后训练技术的领域模型,积极推动AI大模型时代各行业的智能化升级。目前团队主要负责各行业和领域的语言大模型、多模态大模型、以及大模型基础研究,主要技术成果已成功应用到科学研究、安全审核、主权模型、生物医疗、大型国际赛事(奥运会、NBA)等多个领域大模型中。 工作内容 1.多模态大模型后训练研发:根据行业要求,探索适配领域特性的SFT/RL算法研发,构建高效、稳定、可扩展的垂域模型后训练范式,优化模型结构和推理效率,持续提升模型在业务场景下的效果、性能和用户体验,提升产品竞争力和市场规模。 2.垂域高质量数据闭环研发:持续建设高质量数据筛选流程,提升自动化预标注精度,推进垂域场景多模态数据 scale up,根据业务需求和评测结果提升定向数据挖掘能力,不断提升数据质量、多样性和生产效率。 3. 紧跟多模态大模型前沿技术趋势,从Visual RL到Token Compression,提升模型处理复杂、多变场景以及对模糊指令的遵循能力,优化模型响应速度,拓展模型在重点领域的智力边界,并以开源、技术报告等方式沉淀研究成果。引入新的算法技术和理念,为团队技术迭代提供前瞻性建议。
- 负责车载多模态交互产品的规划与设计,聚焦于视觉能力在交互、识别、感知等场景的产品化落地,包括但不限于手势交互、面部识别、目光追踪、车内行为识别、车外场景识别。 - 牵头多模态感知(视觉+语音+触控)融合策略设计,定义用户关键场景中的产品体验路径。 - 深入理解车载视觉传感技术与AI模型能力,协调算法、硬件、设计、系统等跨团队高效协作,推动产品按期上线。
1. 多模态交互系统设计:从产品应用体验视角,结合模型的持续迭代进展,定义多模态交互产品架构和标准SDK,主导交互体验优化,包括交互准确性、流畅性、情感化理解和表达、多轮上下文记忆等核心能力。 2. 场景化解决方案开发: (1)针对不同客户场景(各类AI硬件和App等),设计典型的端到端交互方案。 (2)协同研发团队针对典型场景,设计并优化模型和工程方案,满足低功耗、高实时性要求。 3. 技术生态整合: (1)联合外部硬件厂商,推动该交互产品适配。 (2)构建开发者友好的多模态交互套件,降低生态接入成本。 4. 行业洞察与竞争分析:跟踪国内外多模态交互类产品动态,制定技术对标与差异化方案。
1、基于视觉理解大模型打造的视频通话功能做相关的数据建设,负责智能对话类产品的场景构建、数据采集、风格制定,对结合视觉的对话类数据生产的质量和效率负责,紧密协同模型效果迭代; 2、依据视觉理解模型的能力场景,制定并持续优化数据生产的标准和流程,积极探索数据生产或模型效果提升的实验,获得客观严谨的结论并能优化数据生产流程; 3、能够用多种手段为标注工作提效,包括并不限于工具优化、PE撰写、标注方式创新等; 4、与算法团队、产品团队密切协作,深度理解背后的模型原理、算法逻辑,积极提供有价值的数据构造或生产的策略及建议; 5、输出与带教,协助团队其他非技术向员工,提升对多模态大模型的了解程度、教授实际应用技巧等,以辅助团队更好完成业务目标。