阿里云研究型实习生 - 大模型预训练数据处理的文本去重性能优化
任职要求
1、扎实的工程能力,优良的编程风格,熟悉C++/Python等面向对象编程语言,以及常用设计模式; 2、具备较好的问题分析、解决和归纳能力,具备一定的性能分析和调优经验; 2、顺畅的表达和沟通能力、以及良好的团队合作意愿; 3、熟悉计算机体系结构基础知识,并具备一定的对复杂系统的分析、设计能力。 加分项: 1、有突出的学术背景和创新研究能力; 2、有常用推理框架的使用和调优经验; 3、具有GPU高性能Kernel开发和优化经验。
工作职责
该职位会专注于大规模离线LLM推理在文本处理场景中的研究和开发,具体职责包括: 1、大模型的量化调优,在较低内存和CPU算力的环境中,依然可以达到较高的token处理和生成速率。 2、常用推理框架(e.g. vLLM, Llama.cpp),在网页文本处理任务上的性能调优,特别是针对质量分计算或者打标场景的调优。 3、中低端GPU对于小参数LLM(1.5B/3B/7B/14B等规格)的推理性能调优。
研究领域: 自然语言处理 项目简介: 大语言模型(Large Language Models, LLMs)作为人工智能领域的重要突破,其预训练技术决定了模型对语言的理解与生成能力。预训练阶段涉及海量数据的高效处理、知识的学习与存储,是提升模型性能的核心环节。然而,如何在有限资源下优化预训练效率、提升模型对特定领域的适配能力,仍是一个关键挑战。本项目旨在探索更加高效的预训练技术与算法创新,解决当前大语言模型在效率、泛化性和领域适配性上的问题,推动其在工业和学术领域的进一步发展。
团队介绍: 我们团队负责高德出行大数据的分析和应用开发,在机器学习、深度学习、大模型agent等方向探索解决业务问题,洞察业务机会,打造智能化的用户出行数据引擎。我们鼓励创新,鼓励发表论文和申请专利,乐于用新技术在业务方向做实际落地的尝试,期待你的加入! 具体职责包括但不限于: 1、负责机器学习、深度学习领域的数据挖掘研发工作,应用高德人地时空大数据挖掘用户画像、解决用户痛点问题; 2、负责时空大数据与AI Agent结合的应用实践,探索时空大数据Agent落地时间; 3、针对特定的业务场景对基座大模型进行微调优化,实现专属技能模型的能力升级和性能提升。
1. 跟进和研发大规模语言模型(LLM)的预训练、持续训练、SFT、RLHF 等技术。 2. 研发基于大模型的生成式召回、广告点击率预估、用户搜索词理解等下游应用。 3. 结合以上方向的探索和研究,撰写发表论文,和业界、学术界保持良好的交流。
1. 研究并探索大规模语言模型及多模态大模型在推荐系统可解释性生成中的应用,包括基于大模型的解释生成、用户意图理解与个性化解释优化; 2. 跟进并研发大模型的关键技术链路,包括SFT、RLHF等,提升解释内容的准确性、自然性与用户可接受度; 3. 构建推荐-解释联合建模框架,融合RAG、COT、Agent 推理等技术,实现动态、透明、可信的推荐决策过程; 4. 探索多模态大模型在推荐场景下的可解释性表达能力,支持跨模态解释生成与用户交互;结合工业级推荐场景(如电商),推动研究成果落地,并持续优化线上效果与用户体验; 5. 撰写高水平学术论文,和业界、学术界保持良好的交流。