通义研究型实习生-大模型的词表scaling law研究
任职要求
候选人应为: 1.计算机及相关专业的博士或硕士研究生,NLP方向且对LLM有充分的兴趣; 2.最好有模型词表方向优化的经验,需要产出论文和专利等高水平的学术成果,并将成果转化到通义千问大模型中。
工作职责
大模型借助庞大的文本语料和巨量的计算资源,展现出了惊人的性能表现。之前大量的研究工作聚焦于模型参数量、计算量以及数据总量的scaling law,忽略了模型中词汇量的大小对模型的影响。大的词汇量会提升分词的压缩比,从而提升模型的训练和推理效率,但词汇量应该增大到何种程度,以及不同规模的模型对词汇量的需求是否一致等这些关键且基础的问题仍需要进一步的探索。我们期望将相应的技术路线充分探索并加以优化以大幅提升通义千问模型的训练和推理的效率和性能。 拟解决技术问题: 研究构建高效大模型词表的方式 研究大模型词表对模型输出质量的影响 研究不同规模、不同数据下模型词表大小对模型性能的影响 研究通过词表压缩技术减少模型参数量且保持性能
1. 跟进多模态大模型(vLLM)预训练、SFT、RLHF等技术,调研与跟进最新进展;负责多模态相关性大模型、多模态大模型稀疏检索和稠密模型,多模态大模型个性化预训练方向,以及多模态大语言模型的训练和推理加速; 2. 多模态大模型个性化预训练:研发个性化预训练模型,探索在训练样本、模型参数量等维度上scale-up能带来的收益,研究在电商搜索场景下, CTR和CVR 模型中用户动线特征的挖掘和应用,包括用户行为模型的获取、特征设计、结构优化等个性化建模; 3. 多模态大模型的训练和推理加速:协助研究和开发多模态大语言模型的加速技术,包括但不限于量化、剪枝和蒸馏,以及数据特征和调度优化;实现和优化多模态大模型推理框架,以提高推理速度和效率;与工程团队合作,解决机器学习模型在部署过程中的性能问题; 4. 多模态大模型相关性模型:研发基于多模态大模型的相关性标注和评测大模型,应用到体验实验评测、体验监控、离线数据标注、线上相关性判断等方向; 5.多模态大模型稀疏检索和稠密模型:研究方向包括不限于:电商词表生成、多模态稀疏词表和稠密表征技术、LLMs幻觉缓解等问题。
随着大规模语言模型(LLM)的规模效应在训练数据与参数大小上的显著提升,解码方案的优化也逐渐成为提升模型生成性能的关键。通过在解码过程中投入一定的计算量,可以显著提高模型的生成质量和效率。通义千问模型已经在全球范围内取得了领先的模型效果,为进一步探索解码干预方案提供了坚实的基础。 本项目旨在探索以下一项或多项技术问题,以进一步提升大规模语言模型的解码性能: - 解码过程控制:研究如何对解码过程进行有效控制,提升模型处理复杂问题的能力。例如,如何通过动态调整解码策略来应对不同类型的输入,或在生成过程中引入更多的上下文信息。 - 大小模型结合的解码干预:研究如何通过训练小模型来干预大模型的行为,从而在不显著影响大模型整体性能的前提下,提升特定任务的生成质量或效率。这包括如何设计小模型的架构、如何与大模型进行有效的交互。 - 长文本解码方案:研究如何通过修改attention计算方式或其他解码算法,实现更好的长文本生成外推能力,或提升长文本生成的效率。这包括如何处理长依赖关系、如何优化内存使用,以及如何在生成过程中保持高质量的输出。
1.探索基于数据驱动的高效后训练优化策略,以更高效地提升模型性能,降低计算资源的消耗。 2.探索推理路径优化方法,提高大语言模型在多步推理、逻辑推理及跨领域知识融合任务中的准确性,稳定性和可控性。 3.探索推理能力自适应提升技术,开发能够根据具体任务需求动态调整推理策略的自适应学习机制,使模型在不同场景下都能达到较高的推理效率和准确率。
随着大语言模型(如ChatGPT等)的广泛应用,各行业对个性化回复的需求日益增长。个性化回复不仅能提升用户体验,还能增强模型在特定领域的实用性和准确性,但个性化回复的实用性和效果仍存在优化空间。本课题旨在探讨如何利用大语言模型实现个性化回复,满足不同行业及用户的特定需求。通过对用户输入上下文和历史对话的深度分析,模型将能够生成更具针对性和相关性的回复,从而提高用户满意度和互动有效性,我们希望在大模型个性化回复的研究中解决以下技术问题: 1. 用户行为数据的挖掘与建模:研究如何有效地收集和分析用户的历史交互记录、偏好设置等信息,以实现更精准的个性化推荐和回复策略。 2. 多轮对话的上下文理解:提高模型在多轮对话中对于上下文信息的理解能力,确保模型能够根据先前的对话内容生成更连贯、相关的回应。 3. 情感分析与情感适应:探索如何利用情感识别技术,使模型能够根据用户的情绪状态调整回复的语气和内容,以提升用户的满意度和对话的自然性。 4. 实时反馈机制:研究如何快速获取用户对模型回复的反馈,并将其融入模型的学习过程中,从而在交互中不断优化个性化表现。 5. 多模态的能力:扩展模型的感知方式,在文本模态的基础上,支持图像、音频等多种模态,从跨模态数据中抽取用户的兴趣,提升用户体验。