蚂蚁金服蚂蚁集团-大模型预训练数据处理-数字医疗技术
任职要求
1. 学历背景:计算机科学、人工智能、数学、统计学或相关专业本科及以上学历。 2. 1年以上大模型(如NLP/CV多模态)预训练数据处理经验,熟悉完整的数据处理链路; 3. 掌握Python及主流数据处理工具库,理解数据清洗技术;熟悉数据质量评估指标(如多样性、信息熵、毒性检测)及统计分析工具。 4. 有医疗数据处理相关经验者优先,发表过数据处理相关顶会论文,或参与过开源项目者优先
工作职责
1. 负责大模型(LLM)预训练阶段的数据处理工作,包括数据收集、清洗、去重、标注、格式转换及质量评估。 2. 针对多模态(文本、图像、语音等)或垂直领域数据,设计高效的数据处理流程与标准化方案。 3. 分析数据分布特征,识别并解决数据偏差、噪声等问题,确保训练数据的多样性和高质量。 4. 开发自动化数据处理工具与脚本,优化数据清洗、标注及质量评估的效率和规模化能力。 5. 与算法团队紧密协作,根据模型训练需求定制数据策略,提升预训练效果。 6. 跟踪学术界与工业界前沿数据处理技术,沉淀技术文档与最佳实践。
大模型数据处理与优化 1. 构建从数据采集、清洗、评估、消融归因的全流程数据框架,辅助模型能力稳步提升; 2. 设计和优化PB级多模态多领域训练数据的解析、理解、筛选、改写、合成体系; 3. 设计面向医疗领域的结构化数据处理流程,沉淀医学权威知识库,解决医疗模型幻觉问题; 4. 训练数据提取、过滤、改写、分类等模型。 高质量数据生产和评估 1. 基于业务场景,设计高质量高效率的数据生产流程,交付对模型有增益的数据; 2. 训练预标注和数据质控模型,不断提升数据生产效率和交付质量。
团队介绍:AI Coding团队致力于探索LLM在软件开发全生命周期的应用,支持MarsCode、Trae等代码智能产品中代码补全、智能编辑、程序debug以及代码修复等核心AI功能的全链路模型优化。欢迎对大模型、Agent技术和开发者工具体系感兴趣、对技术有追求的同学加入,共同成长! 课题介绍: 一、课题背景与研究动机 1、复杂软件工程项目的挑战与需求:随着企业业务需求的快速增长,软件项目规模持续扩大,系统架构日趋复杂,跨语言、多框架、多平台开发成为常态。开发团队在应对代码理解、跨模块协作、版本演化和长期维护等问题时,效率与质量面临双重挑战; 2、大模型在编程领域的潜力与不足:大规模语言模型在代码生成、补全和文档生成等任务上已展现强大能力,推动了智能化开发工具的初步落地。然而,在应对复杂软件工程项目时,现有模型在长序列建模、上下文一致性、跨文件依赖理解及代码质量保障方面仍有明显不足; 3、技术与产业机遇:1)范式变革:大模型有望成为软件开发全流程的重要参与者,推动从工具辅助向智能协作转变,覆盖从需求分析到代码实现、测试生成和自动化重构的各个环节;2)行业转型:通过深度优化大模型在复杂软件开发中的能力,可显著提升企业研发效率、软件质量与团队协作能力,助力数字化转型; 二、研究目标与创新价值 1、研究目标 1)提升大模型对复杂项目的语义理解与跨模块上下文建模能力,尤其是在长序列代码、跨文件依赖和复杂逻辑推理场景中的表现; 2)优化模型微调与自适应学习策略,通过引入多任务学习、强化学习(RL)和领域知识增强,构建具有高泛化能力和行业适配能力的大模型; 3)集成领域知识库与检索增强(RAG)技术,确保模型生成结果在行业标准、安全规范和合规性方面的准确性与可靠性; 4)构建自我进化的 AI Coding多智能体系统,基于强化学习、长期记忆、垂类模型训练、测试时计算等方法,持续优化任务规划、代码生成等能力,实现数据驱动的自我进化,从而实现复杂应用的端到端全栈开发; 2、创新价值 1)模型结构与预训练策略的突破:在通用预训练模型基础上,结合程序分析与语法语义建模,提升对大型软件项目的理解能力,尤其是在模块间交互和函数调用路径分析方面; 2)模型优化与自适应增强:通过多维度监督信号(代码质量、运行性能、测试覆盖率等),实现强化学习与在线反馈的动态调整,打造具备持续学习能力的大模型; 3)从工具辅助到全生命周期协作:以大模型为核心,推动需求到实现、测试到部署的智能化协作新范式,助力开发者在复杂工程项目中更高效地完成跨团队协作与长期维护; 4)领域知识与行业专属能力融入:通过引入行业领域知识库(如金融合规、医疗数据安全规范等),结合检索增强技术(RAG),确保生成代码符合行业标准,显著降低错误和安全隐患; 三、主要挑战与应用前景 1、长序列代码与复杂上下文建模:复杂软件项目中,代码文件可能达到数千行,存在跨模块调用和多层次依赖,模型如何在长序列输入下保持上下文一致性,是核心技术难点之一; 2、跨语言与多框架适配:现有模型大多针对单一语言优化,而企业项目往往涉及多语言(如 Python、C++、Java 等)和多框架(如 React、Django、Kubernetes)。如何提升模型的跨语言泛化能力成为重要课题; 3、领域知识缺失与安全合规风险:通用大模型缺乏行业特定知识,可能生成不符合行业规范或存在潜在漏洞的代码,需引入领域知识与合规规则进行优化和增强; 4、人机协作:针对新涌现的大模型技术和应用场景,研究下一代软件研发人机交互形式,推动AI驱动的交互形式的普及与发展。
团队介绍:AI Coding团队致力于探索LLM在软件开发全生命周期的应用,支持MarsCode、Trae等代码智能产品中代码补全、智能编辑、程序debug以及代码修复等核心AI功能的全链路模型优化。欢迎对大模型、Agent技术和开发者工具体系感兴趣、对技术有追求的同学加入,共同成长! 课题介绍: 一、课题背景与研究动机 1、复杂软件工程项目的挑战与需求:随着企业业务需求的快速增长,软件项目规模持续扩大,系统架构日趋复杂,跨语言、多框架、多平台开发成为常态。开发团队在应对代码理解、跨模块协作、版本演化和长期维护等问题时,效率与质量面临双重挑战; 2、大模型在编程领域的潜力与不足:大规模语言模型在代码生成、补全和文档生成等任务上已展现强大能力,推动了智能化开发工具的初步落地。然而,在应对复杂软件工程项目时,现有模型在长序列建模、上下文一致性、跨文件依赖理解及代码质量保障方面仍有明显不足; 3、技术与产业机遇:1)范式变革:大模型有望成为软件开发全流程的重要参与者,推动从工具辅助向智能协作转变,覆盖从需求分析到代码实现、测试生成和自动化重构的各个环节;2)行业转型:通过深度优化大模型在复杂软件开发中的能力,可显著提升企业研发效率、软件质量与团队协作能力,助力数字化转型; 二、研究目标与创新价值 1、研究目标 1)提升大模型对复杂项目的语义理解与跨模块上下文建模能力,尤其是在长序列代码、跨文件依赖和复杂逻辑推理场景中的表现; 2)优化模型微调与自适应学习策略,通过引入多任务学习、强化学习(RL)和领域知识增强,构建具有高泛化能力和行业适配能力的大模型; 3)集成领域知识库与检索增强(RAG)技术,确保模型生成结果在行业标准、安全规范和合规性方面的准确性与可靠性; 4)构建自我进化的 AI Coding多智能体系统,基于强化学习、长期记忆、垂类模型训练、测试时计算等方法,持续优化任务规划、代码生成等能力,实现数据驱动的自我进化,从而实现复杂应用的端到端全栈开发; 2、创新价值 1)模型结构与预训练策略的突破:在通用预训练模型基础上,结合程序分析与语法语义建模,提升对大型软件项目的理解能力,尤其是在模块间交互和函数调用路径分析方面; 2)模型优化与自适应增强:通过多维度监督信号(代码质量、运行性能、测试覆盖率等),实现强化学习与在线反馈的动态调整,打造具备持续学习能力的大模型; 3)从工具辅助到全生命周期协作:以大模型为核心,推动需求到实现、测试到部署的智能化协作新范式,助力开发者在复杂工程项目中更高效地完成跨团队协作与长期维护; 4)领域知识与行业专属能力融入:通过引入行业领域知识库(如金融合规、医疗数据安全规范等),结合检索增强技术(RAG),确保生成代码符合行业标准,显著降低错误和安全隐患; 三、主要挑战与应用前景 1、长序列代码与复杂上下文建模:复杂软件项目中,代码文件可能达到数千行,存在跨模块调用和多层次依赖,模型如何在长序列输入下保持上下文一致性,是核心技术难点之一; 2、跨语言与多框架适配:现有模型大多针对单一语言优化,而企业项目往往涉及多语言(如 Python、C++、Java 等)和多框架(如 React、Django、Kubernetes)。如何提升模型的跨语言泛化能力成为重要课题; 3、领域知识缺失与安全合规风险:通用大模型缺乏行业特定知识,可能生成不符合行业规范或存在潜在漏洞的代码,需引入领域知识与合规规则进行优化和增强; 4、人机协作:针对新涌现的大模型技术和应用场景,研究下一代软件研发人机交互形式,推动AI驱动的交互形式的普及与发展。
团队介绍:AI Coding团队致力于探索LLM在软件开发全生命周期的应用,支持MarsCode、Trae等代码智能产品中代码补全、智能编辑、程序debug以及代码修复等核心AI功能的全链路模型优化。欢迎对大模型、Agent技术和开发者工具体系感兴趣、对技术有追求的同学加入,共同成长! 课题介绍: 一、课题背景与研究动机 1、复杂软件工程项目的挑战与需求:随着企业业务需求的快速增长,软件项目规模持续扩大,系统架构日趋复杂,跨语言、多框架、多平台开发成为常态。开发团队在应对代码理解、跨模块协作、版本演化和长期维护等问题时,效率与质量面临双重挑战; 2、大模型在编程领域的潜力与不足:大规模语言模型在代码生成、补全和文档生成等任务上已展现强大能力,推动了智能化开发工具的初步落地。然而,在应对复杂软件工程项目时,现有模型在长序列建模、上下文一致性、跨文件依赖理解及代码质量保障方面仍有明显不足; 3、技术与产业机遇:1)范式变革:大模型有望成为软件开发全流程的重要参与者,推动从工具辅助向智能协作转变,覆盖从需求分析到代码实现、测试生成和自动化重构的各个环节;2)行业转型:通过深度优化大模型在复杂软件开发中的能力,可显著提升企业研发效率、软件质量与团队协作能力,助力数字化转型; 二、研究目标与创新价值 1、研究目标 1)提升大模型对复杂项目的语义理解与跨模块上下文建模能力,尤其是在长序列代码、跨文件依赖和复杂逻辑推理场景中的表现; 2)优化模型微调与自适应学习策略,通过引入多任务学习、强化学习(RL)和领域知识增强,构建具有高泛化能力和行业适配能力的大模型; 3)集成领域知识库与检索增强(RAG)技术,确保模型生成结果在行业标准、安全规范和合规性方面的准确性与可靠性; 4)构建自我进化的 AI Coding多智能体系统,基于强化学习、长期记忆、垂类模型训练、测试时计算等方法,持续优化任务规划、代码生成等能力,实现数据驱动的自我进化,从而实现复杂应用的端到端全栈开发; 2、创新价值 1)模型结构与预训练策略的突破:在通用预训练模型基础上,结合程序分析与语法语义建模,提升对大型软件项目的理解能力,尤其是在模块间交互和函数调用路径分析方面; 2)模型优化与自适应增强:通过多维度监督信号(代码质量、运行性能、测试覆盖率等),实现强化学习与在线反馈的动态调整,打造具备持续学习能力的大模型; 3)从工具辅助到全生命周期协作:以大模型为核心,推动需求到实现、测试到部署的智能化协作新范式,助力开发者在复杂工程项目中更高效地完成跨团队协作与长期维护; 4)领域知识与行业专属能力融入:通过引入行业领域知识库(如金融合规、医疗数据安全规范等),结合检索增强技术(RAG),确保生成代码符合行业标准,显著降低错误和安全隐患; 三、主要挑战与应用前景 1、长序列代码与复杂上下文建模:复杂软件项目中,代码文件可能达到数千行,存在跨模块调用和多层次依赖,模型如何在长序列输入下保持上下文一致性,是核心技术难点之一; 2、跨语言与多框架适配:现有模型大多针对单一语言优化,而企业项目往往涉及多语言(如 Python、C++、Java 等)和多框架(如 React、Django、Kubernetes)。如何提升模型的跨语言泛化能力成为重要课题; 3、领域知识缺失与安全合规风险:通用大模型缺乏行业特定知识,可能生成不符合行业规范或存在潜在漏洞的代码,需引入领域知识与合规规则进行优化和增强; 4、人机协作:针对新涌现的大模型技术和应用场景,研究下一代软件研发人机交互形式,推动AI驱动的交互形式的普及与发展。