通义基础模型评估系统算法工程师
任职要求
1. 来自全球Top高校计算机科学、人工智能、机器学习、深度学习,或相关领域应届毕业生,博士/硕士毕业生优先。 2. 了解 LLM Evaluation(评测方案与评测数据构建)或具有 post-training(SFT、RL等)训练和数据合成经验。 3. 具有较强的代码工程能力,精通 Python 以及 Pytorch 等深度学习框架;熟悉 Transformer 架构以及大语言模型基础知识。 4. 在国际顶级计算机会议/期刊(如NeurIPS、ICML、ICLR、ACL、TPAMI等)以一作身份发表论文,或在开源社区、计算机领域竞赛中有突出研究成果和项目经历。 5. 对基础模型的前沿问题有持续热情,具备独立思考能力和系统性研究思维,敢于挑战现有范式。能够独立应用技术解决复杂问题,主导或深度参与过有影响力项目的人选优先。 6. 具备跨学科视野与协作意识,能够与工程、产品等多学科团队紧密合作,推动研究成果快速落地并产生实际影响力。
工作职责
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于研发下一代大模型评估系统,从而实现让大模型更好地执行真实世界任务进而服务人类的目标。 工作职责: 1. 挖掘大模型弱点,持续快速构建覆盖各项模型能力的评测数据集,探索可靠、具有可扩展性的评测方案。 2. 参与LLM-as-a-Judge 方案构建,训练LLM Judge/Reward Model,建模人类偏好并提升长尾任务的评价准确性。 3. 参与Reward System 构建,设计Reward Signal、合成对应数据,并通过 RL 提升模型的能力上限。 4. 参与开发Evaluation、Reward System 所需工程框架,简化各类测试任务和模型集成流程,帮助提高团队效率。
模型评估的方法决定了我们训练什么样的大模型,构建AGI模型的第一步应当是思考我们如何评测模型。随着技术的快速发展,传统的评测逐渐不适应当前的模型能力,我们需要研发下一代大模型评估系统,从而实现让大模型更好地执行真实世界任务进而服务人类的目标。 工作职责: 1. 挖掘大模型弱点,持续快速构建覆盖各项模型能力的评测数据集,探索可靠、具有可扩展性的评测方案。 2. 参与 LLM-as-a-Judge 方案构建,训练 LLM Judge / Reward Model,建模人类偏好并提升长尾任务的评价准确性。 3. 参与 Reward System 构建,设计 Reward Signal、合成对应数据,并通过 RL提升模型的能力上限。 4. 参与开发 Evaluation、Reward System 所需工程框架,简化各类测试任务和模型集成流程,帮助提高团队效率。

1. 研究前沿的大型语言模型(LLM)技术,包括但不限于:大型语言模型及其微调技术、检索增强生成(RAG)、提示工程和基于知识的对话系统等; 2. 提升基础模型的整体性能,涵盖数据获取、模型评估、监督微调(SFT)、奖励建模及强化学习等; 3. 持续推动大型语言模型的核心技术发展,不断优化理解、推理和生成能力; 4. 与跨功能团队合作,将先进的LLM解决方案集成推动。
作为核心算法成员,参与AI图像相关算法研发,主要服务于下一代智能相册系统。主要工作包括: 一、图像理解方向: 1)开发基于多模态语义的图像理解算法:人物识别、事件聚类、情绪识别、场景识别等;构建个性化的图像语义标签体系; 2)设计图像内容质量评估模型(重复、模糊、人脸表情等)提升用户体验; 3)探索RAG、多模态图像大模型、文本大模型联动下,agent能力建设和开发。 二、 图像AIGC方向(创作与编辑): 1)研究并实现图像生成与编辑算法,如背景替换、人像美化、风格迁移、文生图,图生图等; 2)参与基于 Diffusion基础模型训练; 3)参与ControlNet、Inpainting、aigc编辑大模型等前沿应用模型的业务开发和落地;
参与语言大模型、视觉大模型、语音大模型、多模态大模型的应用评测与研究工作,具体工作内容包括但不限于: - 从大模型应用视角出发,建设科学、全面的大模型评测体系,制定并实施评测标准与评测方案。 - 对数据进行处理、理解,建设高质量数据pipeline,并基于科学、全面的评估体系构建数据集,系统评估模型能力,产出评测报告,指引大模型相应能力的提升。 - 利用大模型辅助、替代人工标注,准确、高效的进行半自动化、自动化的模型评测,降低评测成本、提升评测效率。 - 利用大模型进行自动化的Red Team,系统的发现9.11和9.8谁大答错等典型模型能力短板,以及模型发生涉政涉黄涉及未成年人等不当回复的风险。 - 对模型评测中发现的模型能力短板、模型能力变化、不符合认知的异常进行研究分析,产出研究分析结论,指引大模型相应能力的提升。具体研究项包括不限于数据、模型结构、训练方式对各类模型能力的影响,以数据相关研究为例,包括不限于研究不同数据类型、不同数据配比、不同数据加入时机、不同数据规模等变量对各类模型能力的影响。 - 紧密关注大模型方向的前沿技术进展,积极主动地学习和探索新数据分析、模型训练以及模型评测方法。 - 紧密关注大模型应用落地的行业最新进展,结合行业进展思考大模型评测、训练的发展趋势,对模型评测体系、机制进行迭代。