蚂蚁金服研究型实习生-大语言模型预训练技术研究
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的…
工作职责
研究领域: 自然语言处理 项目简介: 大语言模型(Large Language Models, LLMs)作为人工智能领域的重要突破,其预训练技术决定了模型对语言的理解与生成能力。预训练阶段涉及海量数据的高效处理、知识的学习与存储,是提升模型性能的核心环节。然而,如何在有限资源下优化预训练效率、提升模型对特定领域的适配能力,仍是一个关键挑战。本项目旨在探索更加高效的预训练技术与算法创新,解决当前大语言模型在效率、泛化性和领域适配性上的问题,推动其在工业和学术领域的进一步发展。
关于我们: 我们是阿里国际数字商业集团-跨境贸易事业部 (ICBU)-Accio算法团队!ICBU是全球最大的跨境B2B数字化贸易平台。我们正在运用前沿的大语言模型(LLM)技术打造新一代AI搜索引擎-Accio,重塑企业跨境B2B采购流程。 核心职责: 1. 全流程AI解决方案开发: 主导从数据结构设计、算法框架搭建到效果评估指标制定的完整AI系统开发,支撑智能搜索与采购自动化场景 2. 大语言模型研发部署: 实现LLM模型(如GPT、BERT等架构)的预训练、微调及落地应用,持续提升搜索相关性、语义理解能力和智能对话代理性能 3. 前沿技术探索: 通过跨团队协作与行业趋势分析,挖掘AI技术在B2B电商场景的创新应用方向 4. 技术攻坚: 诊断现有系统瓶颈,设计改进方案并向决策层推动技术升级落地
1.负责LBS搜推广领域内,自然语言处理、多模态及深度学习领域内的算法研发,包括但不限于预训练语言模型、文本生成、多模态生成匹配、LBS搜推广召回排序算法等。 2.应用最新的自然语言理解、机器视觉、多模态及其他深度学习技术,推进线上应用的创新与优化,提升信息分发的体验和效率。 3.创新设计在LBS、本地到店领域的自然语言处理、计算机视觉、搜推广召回排序、语音对话、知识图谱、内容理解生成、时空数据建模等方向的算法和策略机制。 4.与工程团队紧密合作,确保算法研发成果的有效落地。
团队介绍: 我们团队负责高德出行大数据的分析和应用开发,在机器学习、深度学习、大模型agent等方向探索解决业务问题,洞察业务机会,打造智能化的用户出行数据引擎。我们鼓励创新,鼓励发表论文和申请专利,乐于用新技术在业务方向做实际落地的尝试,期待你的加入! 具体职责包括但不限于: 1、负责机器学习、深度学习领域的数据挖掘研发工作,应用高德人地时空大数据挖掘用户画像、解决用户痛点问题; 2、负责时空大数据与AI Agent结合的应用实践,探索时空大数据Agent落地时间; 3、针对特定的业务场景对基座大模型进行微调优化,实现专属技能模型的能力升级和性能提升。
【我们是谁?】 阿里云智能是阿里巴巴集团的技术基石,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力。我们的团队专注于机器学习系统(MLSys)的前沿研究与工程实践,特别是为“通义”系列大规模语言模型(LLM)的训练、推理提供坚实的系统支撑。在这里,你将有机会参与构建和优化支撑万亿参数级别模型的超级工程,直接影响亿万用户的AI体验。 【为什么这个机会不容错过?——来自工业界的真实挑战与机遇】 大规模语言模型的研发是一项复杂的端到端系统工程。从海量数据的高效处理、万卡集群的分布式训练、精细化的后训练调优,到低延迟高吞吐的推理服务和云上弹性部署,每一个环节都充满了挑战,也孕育着巨大的创新机会。我们认为,虽然算法创新是驱动力,但在LLM的整个生命周期中,系统扮演着至关重要的角色。 以下是我们正在“通义”大模型及相关场景下积极探索并期待与你共同攻克的挑战: 1.超大规模预训练系统优化:追求极致效率与稳定性 ·系统行为的深度洞察:在万卡集群并行训练的极致规模下,如何设计高效、低侵扰的追踪系统(Tracing System)以精准理解系统真实运行状态,本身就是一个难题。例如,仅网络层追踪就面临数据量爆炸性增长的挑战,如何在海量数据中高效提取关键信息,指导性能优化。 ·并行策略的自动化与智能化:随着模型结构的快速迭代,如何针对新型架构自动设计并调整最优的并行策略(张量并行、流水线并行、数据并行、序列并行及其混合),在复杂的内存、计算、通信约束下取得最佳平衡,减少人工调优的巨大成本。 ·大规模集群的韧性与容错:尽管我们拥有先进的异步、跨多级存储的Checkpointing机制,但GPU集群的故障(硬件、软件、网络等)仍会导致训练中断和时间浪费。如何进一步提升系统的容错恢复能力,最大限度减少故障影响,保障训练任务的连续性和效率。 2.后训练(RLHF等)中的算法-系统协同设计:提升“智能”的性价比 ·复杂工作流的高效资源调度:后训练阶段(如RLHF)涉及采样、训练、评估等多个计算特点各异的任务。如何设计智能调度系统,自动、高效地为这些任务分配和管理计算、存储、网络资源,以最小化总体资源消耗,或最大化单位资源投入下模型效果的提升“斜率”。 ·算法与系统协同进化:后训练的算法仍在快速演进,如何设计灵活、可扩展的系统架构,以适应算法的不断变化,并反过来通过系统创新启发新的算法可能性。 3.云原生推理服务:敏捷、高效、经济地赋能万千应用 ·多样化业务负载与SLA保障:云上推理业务场景丰富,客户对吞吐量、延迟、成本等有着不同的服务等级协议(SLA)要求。如何设计统一而灵活的推理服务系统,满足从离线批量推理到在线实时服务的各种需求。 ·推理优化技术的敏捷集成与工程化:学术界和开源社区的推理优化技术(如量化、剪枝、FlashAttention、PagedAttention、投机采样、模型编译等)日新月异。如何构建一套敏捷的工程体系,快速评估、吸收、融合这些前沿技术,并将其稳定部署到在线服务中,持续提升推理效率。 ·极致的资源弹性与成本效益:在云环境中,如何通过精细化的资源调度、高效的多租户管理以及智能的流量预测,应对业务负载的剧烈波动,最大限度地减少空闲资源浪费,为用户提供最具成本效益的LLM服务。