蚂蚁金服蚂蚁集团-多模态产品专家(视觉/医疗文档理解方向)-健康事业群
任职要求
1、学历: 硕士学历及以上,计算机(CS)/人工智能专业背景; 2、经验: 3年以上 AI/大模型产品经验,必须有 CV(计算机视觉) 或 多模态大模型(VLM) 落地经验; 3、能力: 懂 OCR 技术边…
工作职责
1、医疗报告智能解读: 负责“阿福”的拍照/上传报告功能,核心解决体检单、化验单、处方单等复杂排版图片的结构化提取与医学结论分析; 2、视觉模型调优: 构建医疗文档的图文评测集(Benchmark),解决模糊拍摄、手写体识别、复杂表格对齐等长尾问题,降低模型幻觉; 3、多模态交互体验: 设计“拍一拍”后的交互流,让用户不仅看到数据,还能通过图片与阿福进行多轮问诊对话。
部门简介 大数据和智能实验室聚焦于基于后训练技术的领域模型,积极推动AI大模型时代各行业的智能化升级。目前团队主要负责各行业和领域的语言大模型、多模态大模型、以及大模型基础研究,主要技术成果已成功应用到科学研究、安全审核、主权模型、生物医疗、大型国际赛事(奥运会、NBA)等多个领域大模型中。 工作内容 1.多模态大模型后训练研发:根据行业要求,探索适配领域特性的SFT/RL算法研发,构建高效、稳定、可扩展的垂域模型后训练范式,优化模型结构和推理效率,持续提升模型在业务场景下的效果、性能和用户体验,提升产品竞争力和市场规模。 2.垂域高质量数据闭环研发:持续建设高质量数据筛选流程,提升自动化预标注精度,推进垂域场景多模态数据 scale up,根据业务需求和评测结果提升定向数据挖掘能力,不断提升数据质量、多样性和生产效率。 3. 紧跟多模态大模型前沿技术趋势,从Visual RL到Token Compression,提升模型处理复杂、多变场景以及对模糊指令的遵循能力,优化模型响应速度,拓展模型在重点领域的智力边界,并以开源、技术报告等方式沉淀研究成果。引入新的算法技术和理念,为团队技术迭代提供前瞻性建议。
语音是人机交互中最自然、最便捷的模态。随着大模型时代的到来,语音 AI 正在从单一的任务处理向多模态、高自然度的“数字员工”演进。 在我们这里,RTC 不仅仅是传输管道,而是数字人的神经中枢。我们已经打通了 WebRTC 全链路,并实现了打断、轮次检测等核心能力。现在的目标是攻克 极致交互延迟、拟人化情感合成、以及具备 RAG 与工具调用能力的语音 Agent。加入我们,你将亲手打造一个“听得清、反应快、有记忆、能办事”的数字灵魂。我们倡导 AI-First 的开发哲学,鼓励利用 AI Coding 与 Vibe Coding 的新范式,快速将创意转化为亿万级用户的交互体验。 【岗位职责】 1. 全链路算法研发与优化: ○ 负责 ASR/LLM/TTS 全链路的协同优化。通过流式算法(Streaming)与端到端优化,挑战 RTC 场景下人机对答的物理延迟极限。 2. 语音 Agent 大脑构建: ○ RAG 与知识增强: 集成检索增强生成(RAG)技术,提升数字人在垂直领域(如医疗预约、智能客服)的专业度。 ○ 实时任务编排: 研发高可靠的 Tool Use(工具调用) 逻辑,使数字人能实时操作后台系统,并处理调用过程中的长延迟等待与交互反馈。 ○ 记忆管理: 建立长短期记忆系统,确保数字人在多轮复杂对话中保持语境一致性。 3. 专项技术突破: ○ 高鲁棒性交互: 研发基于深度学习的智能 VAD 与“语义打断”逻辑,解决强噪声及复杂环境下的起停点识别痛点。 ○ 拟人化表达: 微调 TTS 模型(如情感自适应、口语化重写),提升音色的情感表现力与韵律感。 4. 模型工程化落地: 推动算法在 GPU 环境下的高性能部署,优化并发场景下的状态机管理、显存调度及异常重试机制。 5. 前沿预研: 跟踪并实践 Speech-to-Speech (S2S) 原生端到端交互,探索大模型驱动的语音多模态融合方案;跟踪并实践两段式(ASR+多模态/多模态+TTS)低延迟交互。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 工作职责: 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设; 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 4、参与/负责构建推理框架的系统容错能力,包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设; 5、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 6、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。