logo of aligenie

智能互联通义实验室-大模型数据处理与优化算法工程师-Qwen

社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1. 计算机科学、人工智能、数学、物理或相关领域博士/顶尖硕士毕业生。
2. 熟练掌握Python,熟悉SQL及数据库操作;熟悉分布式计算框架(如SparkHadoopRay);熟悉常见分类模型及深度学习训练 微调 与推理框架(如transformer bert gpt, pytorch , vllm sglang)。  
3. 具备大规模数据处理经验,能够高效完成数据清洗与转换任务。  
4. 学习能力强,动手能力突出,…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。

数据的规模和质量对模型效果起到至关重要的作用,团队重视数据的 scaling,包括但不限于自然语言、代码、多模态等数据的 scaling。团队正在寻找适应快速变化、热衷解决大规模数据挑战的算法工程师,专注于大模型预训练中的数据收集、处理与优化。面对百亿至千亿级别的数据规模,设计高效的数据处理管线,与纯文本和多模态预训练团队深度协作,持续提升数据质量和模型性能。

工作职责:
1. 需求对接与迭代: 快速理解模型预训练需求,灵活调整数据方案以适应高频迭代。  
2. 数据处理与优化: 开发工具完成数据收集、清洗、格式转换(如HTML2Text、PDF2Text、ASR等),构建验证与测试集以量化性能指标,优化流程以应对超大规模数据挑战。  
3. 管线搭建与扩展: 构建自动化、高效率的数据处理管线,优化组件性能,确保稳定性和可扩展性。  
4. 协助数据平台建设:与平台团队合作共建数据平台,分析使用痛点,提出建议意见以改进易用性,并跟进落实。
5. 技术支持与创新: 追踪业界技术进展,为预训练团队提供数据支持,探索新技术以提升数据价值和模型效果。
包括英文材料
Python+
SQL+
Spark+
Hadoop+
Ray+
深度学习+
Transformer+
还有更多 •••
相关职位

logo of tongyi
社招3年以上技术类-算法

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 数据的规模和质量对模型效果起到至关重要的作用,团队重视数据的 scaling,包括但不限于自然语言、代码、多模态等数据的 scaling。团队正在寻找适应快速变化、热衷解决大规模数据挑战的算法工程师,专注于大模型预训练中的数据收集、处理与优化。面对百亿至千亿级别的数据规模,设计高效的数据处理管线,与纯文本和多模态预训练团队深度协作,持续提升数据质量和模型性能。 工作职责: 1. 需求对接与迭代: 快速理解模型预训练需求,灵活调整数据方案以适应高频迭代。   2. 数据处理与优化: 开发工具完成数据收集、清洗、格式转换(如HTML2Text、PDF2Text、ASR等),构建验证与测试集以量化性能指标,优化流程以应对超大规模数据挑战。   3. 管线搭建与扩展: 构建自动化、高效率的数据处理管线,优化组件性能,确保稳定性和可扩展性。   4. 协助数据平台建设:与平台团队合作共建数据平台,分析使用痛点,提出建议意见以改进易用性,并跟进落实。 5. 技术支持与创新: 追踪业界技术进展,为预训练团队提供数据支持,探索新技术以提升数据价值和模型效果。

更新于 2026-04-02北京|杭州
logo of tongyi
社招3年以上技术类-开发

1、负责多模态数据数据pipeline建设、数据版本管理、数据处理、数据算子开发集成等工作。 2、开发自动化数据处理工具与脚本,优化数据清洗、标注及质量评估的效率和规模化能力。 3、参与多模态大模型训练数据的构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,支持模型持续迭代; 4、与算法团队紧密协作,根据模型训练需求定制数据策略,提升训练效果。 5、参与模型推理与部署、模型蒸馏、推理服务服务化,能够支持tagging及服务优化工作。

更新于 2026-03-25北京|杭州
logo of tongyi
社招5年以上技术类-算法

工程岗位的职责包括以下至少一个或多个方向: 1. 具身机器人应用解决方案研发 (1)参与多模态/具身智能机器人在真实场景中的应用方案设计、系统集成与验证。 (2)搭建端到端具身机器人任务pipeline,包括感知、理解、规划、控制、执行等模块的工程化实现。 (3)推动具身智能大模型能力在机器人实际任务中的落地优化(如操作、导航、交互等)。 2. 具身大模型数据采集与处理 (1)负责机器人数据采集系统搭建,包括传感器标定、采集流程、数据质量控制与自动化工具链。 (2)建设具身大模型训练数据pipeline:数据清洗、切分、标注、同步、增强、格式转换等工程化流程。 (3)参与构建多模态数据集(视频、RGB-D、触觉、关节状态、语言指令等)。 3. 具身大模型云端训练与推理优化 (1)基于GPU/加速器的训练平台优化具身大模型训练性能(并行策略、数据流优化、算子优化)。 (2)负责推理引擎优化,包括模型裁剪、编译器优化、图优化、缓存管理、多线程并发调度等。 (3) 参与构建具身智能模型的训练与推理服务基础设施(MLOps、分布式训练、数据版本管理等)。 4. 端侧模型量化部署与优化 (1)主导端侧模型的压缩、量化(INT8/FP8/混合精度等)、剪枝、蒸馏等部署优化工作。 (2)熟悉ONNXRuntime、TensorRT、TFLite、NPU/DSP编译工具链,进行端侧加加速与算子调优。 (3)推动具身大模型在机器人嵌入式/边缘计算平台上的高效部署。 5. 机器人操作系统与系统优化 (1)优化机器人操作系统(ROS2、RTOS、Linux)性能,包括实时性、通信延迟、资源调度、驱动层稳定性等。 (2)推动机器人软硬件协同优化,包括传感器驱动、控制链路优化、系统级profiling/debugging。 (3)支撑机器人任务的稳定运行与系统级可靠性优化。

更新于 2026-03-26北京|杭州
logo of aligenie
社招5年以上技术类-算法

工程岗位的职责包括以下至少一个或多个方向: 1. 具身机器人应用解决方案研发 (1)参与多模态/具身智能机器人在真实场景中的应用方案设计、系统集成与验证。 (2)搭建端到端具身机器人任务pipeline,包括感知、理解、规划、控制、执行等模块的工程化实现。 (3)推动具身智能大模型能力在机器人实际任务中的落地优化(如操作、导航、交互等)。 2. 具身大模型数据采集与处理 (1)负责机器人数据采集系统搭建,包括传感器标定、采集流程、数据质量控制与自动化工具链。 (2)建设具身大模型训练数据pipeline:数据清洗、切分、标注、同步、增强、格式转换等工程化流程。 (3)参与构建多模态数据集(视频、RGB-D、触觉、关节状态、语言指令等)。 3. 具身大模型云端训练与推理优化 (1)基于GPU/加速器的训练平台优化具身大模型训练性能(并行策略、数据流优化、算子优化)。 (2)负责推理引擎优化,包括模型裁剪、编译器优化、图优化、缓存管理、多线程并发调度等。 (3) 参与构建具身智能模型的训练与推理服务基础设施(MLOps、分布式训练、数据版本管理等)。 4. 端侧模型量化部署与优化 (1)主导端侧模型的压缩、量化(INT8/FP8/混合精度等)、剪枝、蒸馏等部署优化工作。 (2)熟悉ONNXRuntime、TensorRT、TFLite、NPU/DSP编译工具链,进行端侧加加速与算子调优。 (3)推动具身大模型在机器人嵌入式/边缘计算平台上的高效部署。 5. 机器人操作系统与系统优化 (1)优化机器人操作系统(ROS2、RTOS、Linux)性能,包括实时性、通信延迟、资源调度、驱动层稳定性等。 (2)推动机器人软硬件协同优化,包括传感器驱动、控制链路优化、系统级profiling/debugging。 (3)支撑机器人任务的稳定运行与系统级可靠性优化。

更新于 2026-04-02北京|杭州