蚂蚁金服【医疗热招】蚂蚁集团-医疗大模型训练算法-数字医疗
社招全职5年以上技术类-算法地点:北京 | 上海 | 杭州状态:招聘
任职要求
1. 熟悉并实操大模型的预训练(Pre-training)、微调(Fine-tuning)、后训练(Post-training)全流程。 2. 有丰富的NLP项目经验,熟悉Transformer架构及主流大模型,具备实际部署和优化经验者优先。 3. 熟练掌握Python编程语言,熟练使用PyTorch或TensorFlow等深度学习框架,有大规模分布式训练经验者优先。 4. 具备医疗行业知识理解能力,熟悉医学术语、诊疗流程、健康管理逻辑,结合医疗业务场景有大模型应用经验者优先。 5. 有大模型开源项目贡献经历或医疗领域AI产品开发经验者优先。 6. 有ACL、EMNLP、NeurIPS、ICLR等人工智能顶会论文发表者优先
工作职责
1. 负责医疗垂直领域大模型的基础研究和工程落地,聚焦大模型的预训练、后训练(SFT、RL)等关键技术。 2. 深入挖掘医疗行业的多源异构数据(包括结构化知识、非结构化文本、临床记录等),构建高质量语料库和知识增强机制,支撑大模型在医疗场景下的可控性和泛化性。 3. 研究并实现大模型在医疗领域的继续预训练、推理增强、指令对齐、上下文对话等关键技术,提升模型在复杂医疗任务中的性能与稳定性。 4. 关注并探索大模型前沿技术,持续跟踪LLM、MoE、Scaling Law、Continual Learning等方向,推动医疗大模型能力的持续迭代与升级。
包括英文材料
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
Transformer+
https://huggingface.co/learn/llm-course/en/chapter1/4
Breaking down how Large Language Models work, visualizing how data flows through.
https://poloclub.github.io/transformer-explainer/
An interactive visualization tool showing you how transformer models work in large language models (LLM) like GPT.
https://www.youtube.com/watch?v=wjZofJX0v4M
Breaking down how Large Language Models work, visualizing how data flows through.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
TensorFlow+
https://www.youtube.com/watch?v=tpCFfeUEGs8
Ready to learn the fundamentals of TensorFlow and deep learning with Python? Well, you’ve come to the right place.
https://www.youtube.com/watch?v=ZUKz4125WNI
This part continues right where part one left off so get that Google Colab window open and get ready to write plenty more TensorFlow code.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
NeurIPS+
https://neurips.cc/
ICLR+
https://iclr.cc/
相关职位
社招5年以上技术类-算法
1. 负责医疗行业大模型的研发和应用,深入挖掘垂直行业、开源以及蚂蚁的海量数据,构建行业知识库,研究前沿大模型训练和优化方法,结合医疗行业特性打造可控的医疗大模型。 2. 开发医疗领域领先的技术产品,如泛医疗助手、医护办事等产品,提升医疗行业场景的用户体验和效率,打造支付宝医疗健康新时代下的AI应用。 3. 研究和跟踪前沿技术发展,探索AI助力医疗普惠和智能化的新范式。
更新于 2025-09-26
社招5年以上技术类-算法
1. 负责医疗多模态大模型的研发和应用,深入挖掘垂直医疗行业、开源以及蚂蚁的海量数据,研究前沿大模型训练和优化方法,结合医疗行业特性构建图文/语音/视频交互的医疗多模态大模型。 2. 开发医疗领域领先的技术产品,如报告解读、皮肤、影像识别等产品,提升医疗行业场景的用户体验和效率,打造支付宝医疗健康新时代下的AI应用。 3. 研究和跟踪前沿技术发展,探索AI助力医疗普惠和智能化的新范式。
更新于 2025-09-26
社招3年以上技术类-开发
大模型数据处理与优化 1. 构建从数据采集、清洗、评估、消融归因的全流程数据框架,辅助模型能力稳步提升; 2. 设计和优化PB级多模态多领域训练数据的解析、理解、筛选、改写、合成体系; 3. 设计面向医疗领域的结构化数据处理流程,沉淀医学权威知识库,解决医疗模型幻觉问题; 4. 训练数据提取、过滤、改写、分类等模型。 高质量数据生产和评估 1. 基于业务场景,设计高质量高效率的数据生产流程,交付对模型有增益的数据; 2. 训练预标注和数据质控模型,不断提升数据生产效率和交付质量。
更新于 2025-08-05