蚂蚁金服研究型实习生-大语言模型预训练技术研究
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的相关经验,包括行业经验或作为参与实验室研究 优先录用: -对技术研究充满热情,具有产生新思想和创新的能力; 在自学,问题分析和解决方面表现出色 -在国际会议上或核心期刊发表一份或多份出版物或论文 -至少3个月的全职工作
工作职责
研究领域: 自然语言处理 项目简介: 大语言模型(Large Language Models, LLMs)作为人工智能领域的重要突破,其预训练技术决定了模型对语言的理解与生成能力。预训练阶段涉及海量数据的高效处理、知识的学习与存储,是提升模型性能的核心环节。然而,如何在有限资源下优化预训练效率、提升模型对特定领域的适配能力,仍是一个关键挑战。本项目旨在探索更加高效的预训练技术与算法创新,解决当前大语言模型在效率、泛化性和领域适配性上的问题,推动其在工业和学术领域的进一步发展。
大模型因其强大的语言理解和生成能力,在人工智能领域引起了广泛关注。当前,ChatGPT、LLama等关注英语的大型语言模型已经取得了显著成就。关注中文的大模型,如ChatGLM、MOSS以及千问等也正在快速发展。然而,中/英以外的语言能力关注较少,但需求和研究价值很高。
1. 跟进多模态大模型(vLLM)预训练、SFT、RLHF等技术,调研与跟进最新进展;负责多模态相关性大模型、多模态大模型稀疏检索和稠密模型,多模态大模型个性化预训练方向,以及多模态大语言模型的训练和推理加速; 2. 多模态大模型个性化预训练:研发个性化预训练模型,探索在训练样本、模型参数量等维度上scale-up能带来的收益,研究在电商搜索场景下, CTR和CVR 模型中用户动线特征的挖掘和应用,包括用户行为模型的获取、特征设计、结构优化等个性化建模; 3. 多模态大模型的训练和推理加速:协助研究和开发多模态大语言模型的加速技术,包括但不限于量化、剪枝和蒸馏,以及数据特征和调度优化;实现和优化多模态大模型推理框架,以提高推理速度和效率;与工程团队合作,解决机器学习模型在部署过程中的性能问题; 4. 多模态大模型相关性模型:研发基于多模态大模型的相关性标注和评测大模型,应用到体验实验评测、体验监控、离线数据标注、线上相关性判断等方向; 5.多模态大模型稀疏检索和稠密模型:研究方向包括不限于:电商词表生成、多模态稀疏词表和稠密表征技术、LLMs幻觉缓解等问题。
大模型的科学知识和文本推理能力是体现大模型智能程度的重要标准,而如何通过大规模算力显著提高大模型的相关能力目前仍是亟待被探索的。本项目旨在研究通过相关预训练数据挖掘合成、专项post-training优化、reward模型构建等技术提升大模型的专项能力并进一步反哺给通用模型。 拟解决的技术问题包括但不限于: -科学、文本推理类预训练数据的高效挖掘、构建 -科学、文本推理类数据的大规模自动合成 -科学、文本推理类能力的自动评测建设 -科学、文本推理类能力的post-training专项优化 -科学、文本推理类能力的reward model专项优化
我们正在寻找一位对大模型技术充满热情、具备扎实理论基础和良好编程能力的研究型实习生,加入我们充满活力的团队,共同探索人工智能技术的未来。你将: 1.深入研究大模型相关前沿技术: 包括但不限于大语言模型的预训练、Post-training、MOE(Mixture of Experts)、多模态大模型等,阅读最新论文,复现经典算法,探索大模型在B站各场景的应用潜力。 2.独立或协助完成大模型相关的技术探索: 参与数据收集和预处理、模型训练和评估、结果分析和报告撰写等工作,为团队的研究成果和技术影响力贡献力量。 我们提供: 1.充足的机器资源和数据支持: 为你提供高性能计算资源和海量数据,助力你在大模型领域的研究探索。 2.丰厚的实习补贴和良好的工作环境: 为你提供舒适的工作环境和具有竞争力的实习补贴。