智能互联通义实验室-大模型数据处理与优化算法工程师-Qwen

社招全职3年以上技术类-算法2026-04-02地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机科学、人工智能、数学、物理或相关领域博士/顶尖硕士毕业生。
2. 熟练掌握Python，熟悉SQL及数据库操作；熟悉分布式计算框架（如Spark、Hadoop、Ray）；熟悉常见分类模型及深度学习训练 微调 与推理框架（如transformer bert gpt, pytorch , vllm sglang）。  
3. 具备大规模数据处理经验，能够高效完成数据清洗与转换任务。  
4. 学习能力强，动手能力突出，…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。

数据的规模和质量对模型效果起到至关重要的作用，团队重视数据的 scaling，包括但不限于自然语言、代码、多模态等数据的 scaling。团队正在寻找适应快速变化、热衷解决大规模数据挑战的算法工程师，专注于大模型预训练中的数据收集、处理与优化。面对百亿至千亿级别的数据规模，设计高效的数据处理管线，与纯文本和多模态预训练团队深度协作，持续提升数据质量和模型性能。

工作职责：
1. 需求对接与迭代： 快速理解模型预训练需求，灵活调整数据方案以适应高频迭代。  
2. 数据处理与优化： 开发工具完成数据收集、清洗、格式转换（如HTML2Text、PDF2Text、ASR等），构建验证与测试集以量化性能指标，优化流程以应对超大规模数据挑战。  
3. 管线搭建与扩展： 构建自动化、高效率的数据处理管线，优化组件性能，确保稳定性和可扩展性。  
4. 协助数据平台建设：与平台团队合作共建数据平台，分析使用痛点，提出建议意见以改进易用性，并跟进落实。
5. 技术支持与创新： 追踪业界技术进展，为预训练团队提供数据支持，探索新技术以提升数据价值和模型效果。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Python+

SQL+

Spark+

Hadoop+

Ray+

深度学习+

Transformer+

还有更多 •••

登录查看完整学习资料

相关职位

通义实验室-多模态大模型数据处理工程师-通义百聆

社招3年以上技术类-开发

1、负责多模态数据数据pipeline建设、数据版本管理、数据处理、数据算子开发集成等工作。 2、开发自动化数据处理工具与脚本，优化数据清洗、标注及质量评估的效率和规模化能力。 3、参与多模态大模型训练数据的构建与管理，参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源，设计有效的数据分布策略，支持模型持续迭代； 4、与算法团队紧密协作，根据模型训练需求定制数据策略，提升训练效果。 5、参与模型推理与部署、模型蒸馏、推理服务服务化，能够支持tagging及服务优化工作。

更新于 2026-03-25北京|杭州

通义实验室-大模型SFT数据专家/高级算法工程师-超拟人语音交互与角色扮演方向

社招3年以上技术类-算法

1.拟人SFT数据构建与策略设计（1）负责面向超拟人语音交互场景的SFT数据方案设计，涵盖角色人设一致性、多轮对话逻辑、情感表达等维度，构建高质量对话语料。（2）针对多模态交互、A陪伴等需求，设计角色扮演数据的标注规范，包括身份背景、经典台词、行为模式等细粒度标签。（3）基于业务场景（如儿童教育、情感陪伴、游戏NPC、模拟面试等）设计符合角色设定的对话逻辑，提升用户交互沉浸感。（4）建立SFT数据评估体系，针对人设一致性、意图识别准确率、对话流畅度等指标进行量化分析与迭代。 2.SFT数据在语音交互模型中的优化（1）结合语音交互链路（ASR→LLM→TTS），通过SFT技术优化大模型的对话能力，重点提升上下文理解、情感响应准确度及多轮对话连贯性。（2）探索角色扮演数据在语音Agent中的应用，例如通过Prompt工程控制对话风格、情绪倾向，实现个性化交互体验。（3）协同声纹识别、情感计算等技术，构建语音-文本-用户画像对齐的数据集，支持个性化交互（如儿童声线识别、成人情感分析）。（4）推动SFT数据在低延迟语音交互场景的落地，优化端到端响应效率（如实时打断、长上下文记忆等能力）。

更新于 2025-12-12北京|杭州

通义实验室-技术专家-大模型数据

社招3年以上技术-基础平台

1、负责AI平台大数据架构演进以及推进落地：根据不同领域场景大模型落地需求，与算法团队和IT基础设施团队紧密合作，提出大模型训练和优化数据规模、数据类型、数据结构等建议，确保架构有效实施； 2、负责搭建大模型数据平台：支撑大模型数据的存储、预处理（去重、相似度计算、脱敏等）诉求，针对大模型场景、数据类型、数据规模具有高扩展性，以支持大模型数据集持续迭代，实现高质量数据集沉淀，确保数据安全和隐私保护； 3、与算法团队紧密协作，抽象研发诉求，落地为便捷实用的的平台能力，提升整个团队的工作效率和数据处理能力。

更新于 2026-03-26北京|杭州

通义实验室-大模型评测工程师-语音实验室

社招3年以上技术类-算法

1. 针对语音通用大模型，设计和建设规划科学、全面的评估体系，涵盖评估指标与具体方法。 2. 基于大模型评测，评估不同算法/数据对于模型在不同能力上的效果，指导模型和数据选型。

更新于 2025-10-18北京|杭州