
智能互联通义实验室-大模型评估系统算法工程师-Qwen
任职要求
1. 学历与计算机、机器学习等方向相关,博士及硕士优先。 2. 了解 LLM Evaluation(评测方案与评测数据构建)或具有 Post-training(SFT、RL等)训练和数据合成经验。 3. 精通 Python 以及 Pytorch 等深度学习框架。 4.…
工作职责
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 模型评估的方法决定了我们训练什么样的大模型,构建AGI模型的第一步应当是思考我们如何评测模型。随着技术的快速发展,传统的评测逐渐不适应当前的模型能力,我们需要研发下一代大模型评估系统,从而实现让大模型更好地执行真实世界任务进而服务人类的目标。 工作职责: 1. 挖掘大模型弱点,持续快速构建覆盖各项模型能力的评测数据集,探索可靠、具有可扩展性的评测方案。 2. 参与 LLM-as-a-Judge 方案构建,训练 LLM Judge / Reward Model,建模人类偏好并提升长尾任务的评价准确性。 3. 参与 Reward System 构建,设计 Reward Signal、合成对应数据,并通过 RL提升模型的能力上限。 4. 参与开发 Evaluation、Reward System 所需工程框架,简化各类测试任务和模型集成流程,帮助提高团队效率。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于优化Qwen基础大模型的Agent能力和构建完善的LLM智能系统,实现LLM对外界的准确感知、利用与反馈。Agent的工作包括从模型侧通过 SFT、RL等提升模型的基础agent能力,让模型和 agent框架有效结合;同时也包括agent system的设计与实现,致力于agentic AI真实落地。 1. 从事Qwen基础大模型的通用agent能力优化,包括但不限于tool use、RAG、planning、memory等能力的算法研发和优化;跟进业界agent benchmark,保持Qwen的agent行业领先水平。 2. 推进agentic AI的发展,包括但不限于多模态 agent、code agent、MCP、deep research 等场景的模型优化与产品落地。 3. 研发agent system,推动AI Agent在架构和性能上的持续优化。 4. 研究、实现和优化最新的强化学习(RL)算法,确保算法的性能和可扩展性。 5. 主导数据收集、环境建模及 agent 的评估与测试工作,确保模型的稳定性和有效性。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于实现理解生成一体化的世界模型,达成“交互”和“创造”两大目标。本方向专注于研发视觉生成技术的突破,其中研究内容包括但不限于:理解生成一体化、视觉生成等,充分探索相关数据及训练方法研究,以期解决计算机视觉基本问题的同时,为 AI 赋予创造力,理解世界及预测未来世界。 工作描述: 1. 下一代理解生成一体化的模型结构设计与研发,探索 Autoregressive LLM 、Diffusion、及两者结合的多种技术路线。 2. 研究及探索世界模型的多模态训练数据及对应训练策略。 3. 设计及研发自动化评估方法设计与实现,为模型研发提供科学指导。
团队介绍: LLM research 团队是隶属于阿里巴巴通义实验室的前沿研究团队,致力于解决大语言模型发展过程中的长期性、基础性挑战。我们的使命是打造具备通用智能的下一代AI系统,让模型真正具备深度推理、规划与复杂问题求解的能力,跨越任务与领域边界,从而在各类真实任务中展现可靠而深刻的智能。 1. 有效评估模型能力:建立系统性的评估方法与指标,准确刻画模型的行为表现与能力边界。 2. 探索模型的能力缺陷:挖掘当前主流模型在关键任务中的局限,理解其失败模式与成因。 3. 理解模型训练机制与问题:深入剖析大模型训练中的核心机制与潜在问题,为新范式设计提供理论支持。 4. 定义与探索更优训练范式:在实践中推动训练方法的演进,从而训练出更强大、更可靠、更智能的模型。
Qwen正在寻找热衷于挑战的你,加入我们训练效率及稳定性优化的队伍。我们的工作重点是在不影响模型性能前提下提高大模型训练的 MFU,同时与网络/服务器/存储等相关运维团队共同保障训练过程中的有效训练时间占比,保障模型的按期交付,以支持模型规模及数据规模的持续 scaling。 工作职责: 1. 在提高训练速度但不牺牲模型质量的前提下,设计并实施训练优化方案,包括但不限于优化算子效率、算子融合、计算通信优化、并行策略优化等。 2. 日常分析训练过程中的性能瓶颈,并提出有效的解决方案。 3. 优化长序列场景下模型训练的耗时及显存使用情况。 4. 快速排查定位训练过程中出现的各种问题,与运维团队共同构建自动化监控与故障诊断体系,确保训练环境的高可用性。 5. 开发与维护用于训练、测试、评估的工具链,简化开发人员的工作流程。 6. 结合最新的研究成果,跟进模型结构的可能改动,推动训练框架的持续演进,保持 Qwen 在技术前沿的地位。