蚂蚁金服蚂蚁集团-多模态产品专家（视觉/医疗文档理解方向）-健康事业群

社招全职5年以上产品类-平台型2026-01-15地点：杭州状态：招聘

扫码手机上打开

任职要求

1、学历： 硕士学历及以上，计算机（CS）/人工智能专业背景；
2、经验： 3年以上 AI/大模型产品经验，必须有 CV（计算机视觉） 或 多模态大模型（VLM） 落地经验；
3、能力： 懂 OCR 技术边…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、医疗报告智能解读： 负责“阿福”的拍照/上传报告功能，核心解决体检单、化验单、处方单等复杂排版图片的结构化提取与医学结论分析；
2、视觉模型调优： 构建医疗文档的图文评测集（Benchmark），解决模糊拍摄、手写体识别、复杂表格对齐等长尾问题，降低模型幻觉；
3、多模态交互体验： 设计“拍一拍”后的交互流，让用户不仅看到数据，还能通过图片与阿福进行多轮问诊对话。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-多模态大模型算法专家-飞天实验室

社招3年以上云智能集团

部门简介大数据和智能实验室聚焦于基于后训练技术的领域模型，积极推动AI大模型时代各行业的智能化升级。目前团队主要负责各行业和领域的语言大模型、多模态大模型、以及大模型基础研究，主要技术成果已成功应用到科学研究、安全审核、主权模型、生物医疗、大型国际赛事（奥运会、NBA）等多个领域大模型中。工作内容 1.多模态大模型后训练研发：根据行业要求，探索适配领域特性的SFT/RL算法研发，构建高效、稳定、可扩展的垂域模型后训练范式，优化模型结构和推理效率，持续提升模型在业务场景下的效果、性能和用户体验，提升产品竞争力和市场规模。 2.垂域高质量数据闭环研发：持续建设高质量数据筛选流程，提升自动化预标注精度，推进垂域场景多模态数据 scale up，根据业务需求和评测结果提升定向数据挖掘能力，不断提升数据质量、多样性和生产效率。 3. 紧跟多模态大模型前沿技术趋势，从Visual RL到Token Compression，提升模型处理复杂、多变场景以及对模糊指令的遵循能力，优化模型响应速度，拓展模型在重点领域的智力边界，并以开源、技术报告等方式沉淀研究成果。引入新的算法技术和理念，为团队技术迭代提供前瞻性建议。

更新于 2026-01-12杭州

悟空事业部-AI 语音智能体（Agent）-专家

社招3年以上技术类-算法

语音是人机交互中最自然、最便捷的模态。随着大模型时代的到来，语音 AI 正在从单一的任务处理向多模态、高自然度的“数字员工”演进。在我们这里，RTC 不仅仅是传输管道，而是数字人的神经中枢。我们已经打通了 WebRTC 全链路，并实现了打断、轮次检测等核心能力。现在的目标是攻克极致交互延迟、拟人化情感合成、以及具备 RAG 与工具调用能力的语音 Agent。加入我们，你将亲手打造一个“听得清、反应快、有记忆、能办事”的数字灵魂。我们倡导 AI-First 的开发哲学，鼓励利用 AI Coding 与 Vibe Coding 的新范式，快速将创意转化为亿万级用户的交互体验。【岗位职责】 1. 全链路算法研发与优化： ○ 负责 ASR/LLM/TTS 全链路的协同优化。通过流式算法（Streaming）与端到端优化，挑战 RTC 场景下人机对答的物理延迟极限。 2. 语音 Agent 大脑构建： ○ RAG 与知识增强：集成检索增强生成（RAG）技术，提升数字人在垂直领域（如医疗预约、智能客服）的专业度。 ○ 实时任务编排：研发高可靠的 Tool Use（工具调用）逻辑，使数字人能实时操作后台系统，并处理调用过程中的长延迟等待与交互反馈。 ○ 记忆管理：建立长短期记忆系统，确保数字人在多轮复杂对话中保持语境一致性。 3. 专项技术突破： ○ 高鲁棒性交互：研发基于深度学习的智能 VAD 与“语义打断”逻辑，解决强噪声及复杂环境下的起停点识别痛点。 ○ 拟人化表达：微调 TTS 模型（如情感自适应、口语化重写），提升音色的情感表现力与韵律感。 4. 模型工程化落地：推动算法在 GPU 环境下的高性能部署，优化并发场景下的状态机管理、显存调度及异常重试机制。 5. 前沿预研：跟踪并实践 Speech-to-Speech (S2S) 原生端到端交互，探索大模型驱动的语音多模态融合方案；跟踪并实践两段式（ASR+多模态/多模态+TTS）低延迟交互。

更新于 2026-03-24杭州

大模型训练框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架，优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline； 2、研发支持多机多卡 RL 的分布式训练框架，开发TP/PP/ZeRO-3与RL流程的动态协同机制，解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链，主导框架与 MLOps 平台集成，提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作，参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代； 5、参与分析各业务 GPU 利用率与饱和度等指标，结合业务场景持续优化训练框架能力，提升框架领先性。

更新于 2026-03-28上海|北京

大模型推理框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！工作职责： 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架； 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设； 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术，打造高效、易用、领先的AI推理框架； 4、参与/负责构建推理框架的系统容错能力，包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设； 5、深度参与周边深度学习系统多个子方向的工作，包括但不限于模型管理、推理部署、日志/监控、工作流编排等； 6、与全公司各业务算法部门深度合作，为重点项目进行算法与系统的联合优化，支撑业务目标达成。

更新于 2026-03-28北京|上海