通义通义实验室-大模型数据处理与优化算法工程师-通义千问
任职要求
1. 熟练掌握Python,熟悉SQL及数据库操作。 2. 具备大规模数据处理经验,能够高效完成数据清洗与转换任务。 3. 熟悉分布式计算框架(如Spark、Hadoop、Ray)。 4. 熟悉常见分类模型及深度学习训练 微调 与推理框架(如transformer bert gpt, pytorch , vllm sglang)。 5. 学习能力强,动手能力突出,能快速上手新工具和技术。 加分项 1. 有大模型相关数据收集处理清洗经验。 2. 有处理千亿级以上数据的经验。 3. 有阿里云服务使用经验如MaxCompute、Function Compute、OSS等。 4. 掌握HTML2Text、PDF2Text、OCR、ASR等技术。 5. 掌握chatgpt claude gemini模型提示词工程。
工作职责
建设 AGI 最重要的原料就是数据,数据的规模和质量都对模型效果起到至关重要的作用。我们极其重视数据的 scaling,包括但不限于自然语言、代码、多模态等数据的 scaling。我们正在寻找一位适应快速变化、热衷解决大规模数据挑战的算法工程师,专注于大模型预训练中的数据收集、处理与优化。你将面对百亿至千亿级别的数据规模,设计高效的数据处理管线,与纯文本和多模态预训练团队深度协作,持续提升数据质量和模型性能。 工作职责: 1. 需求对接与迭代: 快速理解模型预训练需求,灵活调整数据方案以适应高频迭代。 2. 数据处理与优化: 开发工具完成数据收集、清洗、格式转换(如HTML2Text、PDF2Text、ASR等),构建验证与测试集以量化性能指标,优化流程以应对超大规模数据挑战。 3. 管线搭建与扩展: 构建自动化、高效率的数据处理管线,优化组件性能,确保稳定性和可扩展性。 4. 协助数据平台建设:与平台团队合作共建数据平台,分析使用痛点,提出建议意见以改进易用性,并跟进落实。 5. 技术支持与创新: 追踪业界技术进展,为预训练团队提供数据支持,探索新技术以提升数据价值和模型效果。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 视觉语言理解能力是Qwen最重要的能力之一,围绕 LLM 建设出具有视觉深度理解与推理能力的基座模型是团队的必经之路。结合视觉理解和推理能力的基础模型,将拓展到视频理解,GUI Agent,以及VLA 和机器人等场景中。团队负责:1)多模态基础模型的研发,包括融合视觉语言的跨模态理解模型设计,提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing等核心能力,并优化多模态大模型AI infra;2)探索多模态Agent和推理能力,构建支持网络世界(PC/Mobile/Web/游戏)交互的通用智能体;3)研究生成与理解统一的模型架构,实现跨模态生成与推理的协同优化。 工作职责 1. 多模态Pre-training:开展研究及进行实验。研究内容包括:数据清洗与筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态Post-training:迭代Post-training训练策略(SFT/RLHF),专项能力数据迭代,参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用Agent:通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,打造多模态的Test Scaling Laws,并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成:构建视觉统一理解生成大模型,推进多模态统一生成与理解的推理和交互新范式。
团队介绍: 团队聚焦大模型数据优化、模型调优、多智能体协同、LLM跨领域交叉等关键技术方向,诚邀具备扎实科研能力与工程素养的候选人加入,共同推进人工智能前沿技术的突破与应用。 岗位职责: 1. Agentic前沿研究探索和企业级系统架构: (1) 探索agent自我迭代学习范式,如数据合成、奖励建模、强化微调等,持续改善agent训练效率与效果。 (2) 构建高可用多智能体开发框架,探索多智能体交互新范式。 (3) 探索Human-in-the-loop的交互范式和反馈机制,实现Human和Agent之间的有效任务协作。 (4) Agent Runtime系统建设,助力Agent应用从POC阶段走向生产阶段。 (5) 参与垂直领域Agent应用研发和探索,打造行业垂类应用标杆。 2. 数据与模型协同优化: (1) 探索训练数据处理和优化方法,优化数据菜谱,进而提升模型效果。 (2) 探索结构化数据(SQL)与非结构化数据(如文本、图像、音频等)在应用场景下的有效处理、融合和使用。 3. 开源项目的技术研发与社区共建,推动研究成果开源社区的推广。
我们专注于大数据之上的机器学习算法研究与应用,如果你了解机器学习、深度学习、强化学习、迁移学习、主动学习、特征提取与稀疏学习、等级学习等相关知识,对人工智能抱有极大的热情,勇于挑战各种实际应用难题,欢迎加入我们! 具体职责包括但不限于: 1、负责机器学习、深度学习领域的技术研发工作,包括但不限于神经元网络模型设计与优化、强化学习、迁移学习、主动学习、维度降低、核方法、谱方法、特征提取与稀疏学习、等级学习、推荐、随机优化等的算法和系统研发等。 2、负责机器学习尤其是深度学习前沿问题的探索与研究,结合未来实际应用场景,提供全面的技术解决方案。 3、负责提供分布式的算法实现的解决方案,大幅提升算法计算规模和性能。 4、负责提供大数据分析建模方案,沉淀行业解决方案,协助拓展业务边界。
团队介绍: 近年来,以大模型为核心的生成式人工智能技术发展取得了突破性进展,视觉内容创作领域展现出前所未有的技术潜力与广泛的应用前景。我们在数字人、视觉理解、2D/3D生成&编辑、人机交互等领域深耕多年,拥有丰富的学术积累与工程实践经验。过去几年,团队在顶级会议发表论文50余篇,相关成果已在阿里集团内外如教育、培训、客服、社交等多场景落地,在多家主流手机厂商中实现深度集成,也成功服务于奥运会、亚运会、春晚等盛会,累计数亿次调用。 如果你对研发规模化的AIGC解决方案感兴趣,期望在计算机视觉、图形学与机器学习领域持续创新,推动图像、视频与3D内容创作的普惠化和产业化发展,欢迎加入我们共同探索生成式AI在视觉内容创作中的无限可能。 岗位职责具体职责包括但不限于: 1.负责视觉生成模型的核心理论与前沿进展相关研究,通过算法创新与性能优化,提升多模态内容的生成质量、多样性与可控性。 2.负责图像/视频生成、编辑与理解等的核心算法研发、系统研发和产品开发,包括文生图/视频、图生图/视频、图像/视频修复、图像/视频编辑、风格迁移等。 3.负责2D/3D数字人核心算法研发、系统研发和产 品开发,包括基于2D/3D数字人重建、2D/3D数字人生成、姿态估计、表情驱动、语音驱动等。 4.负责面向场景的空间智能算法研究、产品开发,包括子弹时间系统、4D体积视频、3D感知、空间定位等。 5.探索理解生成统一的新范式,以及更加高效的多模态生成Scaling方法,包括但不限于高效attention设计、人类反馈和强化学习、模型蒸馏、训练/推理优化、多模态Tokenizer研究。