蚂蚁金服蚂蚁集团-医疗大模型数据算法工程师-健康事业群
任职要求
1. 扎实的代码能力、工程能力、数据结构和基础算法功底;熟练Python或JAVA; 2. 熟悉NLP、CV、RL相关的算法和技术,…
工作职责
1. 数据处理与治理:负责医疗场景下的多模态数据(如医学影像、视频、语音、病历等)的清洗、标准化、标注与增强,构建高质量、符合业务需求的专项数据集; 2. OCR技术开发与应用:主导并优化OCR技术,针对医疗文档、报告、表格等复杂版式,实现高精度的文本检测、识别与关键信息的结构化提取; 3. 大模型微调与强化:针对具体场景,完成领域大模型的指令微调与强化,优化模型对医疗数据的理解、推理与处理能力; 4. 可信AI与评估体系构建:结合知识图谱和询证原则构建模型能力对齐与评估体系,确保模型输出的准确性、安全性与逻辑一致性,推动模型迭代; 5. 技术前瞻与创新:跟踪多模态大模型前沿进展,探索其在医疗健康领域的创新应用场景,并推进技术原型验证与落地。
-负责多模态大模型中全模态数据(文本、图像、音频、视频等)的采集、处理、采样、配比等全流程数据管线的建设,以及相关的模型结构设计、效果优化,构建适合医疗健康领域的多模态大模型; -研究并实现跨模态信息融合的算法和技术,提升模型在健康内容/服务等场景中的理解和生成能力; -跟踪多模态深度学习的最新研究进展,探索和落地前沿技术(如预训练、自监督学习、小样本学习等); -与产品和工程团队紧密合作,推动多模态技术在搜索、推荐、AIGC等领域的全链路落地应用; -分析和解决在多模态数据处理过程中遇到的技术难题,持续提升模型的智能化水平和商业价值。

整体岗位描述:负责结合自然语言处理(NLP)和计算机视觉(CV)技术,开展微表情分析、心理疾病诊疗、欺诈识别等模型研发工作。参与设计和实现多模态大模型,推动技术在情感计算、金融风控、心理健康等领域的应用。 1.负责多模态算法的研究与开发,包括但不限于微表情识别、情绪分析、心理疾病诊疗、金融风控等; 2.结合NLP和CV技术,设计和实现跨模态数据融合算法,如文本与图像的联合建模; 3.与团队协作,推动算法模型在实际场景中的落地应用; 4.关注前沿技术动态,探索多模态技术在心理健康、金融风控领域的创新应用。
1.医疗大模型后训练:通过持续预训练、指令微调、RLHF技术手段,提升大模型在指令遵循、医学推理能力、长文本、角色扮演等核心任务上的能力。涉及技术包括但不限于自动数据配比、提升指令数据质量、数据合成、奖励建模、DPO、自进化等技术; 2.大模型智能体核心算法研发:包括意图理解、规划决策、任务分解、工具调用、多智能体协作等关键模块的设计与优化,提升Agent的自主决策和任务完成能力; 3.大模型业务应用:在问诊、诊断等方向达到医生能力等效,并应用于京东健康医疗服务,实现医生效率提升;构建AI原生产品,应用于大规模C端用户健康管理。
【课题说明】 面向C端用户的医药健康AI助手项目旨在重塑用户未来的看病范式,给用户提供AI问诊、对症找药、药品问答、医疗科普等多元化核心能力,在用户诊前、诊中、诊后的关键环节提供专业的医疗决策支持,从而促进线上看病一体化链路的打通,率先形成线上便捷+专业的看病入口。 【建议研究方向】 1.医药Agent技术架构设计:针对问病、问药、科普等场景分别建设专业的子Agent能力,并优化多Agent之间的协作逻辑,满足用户灵活的多轮对话交互需求。 2.模型自动化评测:从医学专业性和用户体验维度构建多维度benchmark,并探索Agent各能力项的Auto-Eval做法,提升模型评测效率和结果可靠性。 3.模型后训练技术:探索合成数据技术方案来快速积累高质量医疗训练数据,并通过SFT、强化学习等手段持续提升模型在医学问答、病情采集、疾病诊断、药品推荐等关键任务上的表现和泛化能力。