千问千问事业部-数据架构专家 - 预训练/RAG方向-杭州

社招全职1年以上技术类-开发2026-06-24地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 具备大规模内容数据处理经验，熟悉网页、文档、视频等各模态数据的实时&批次处理技术，对数据清洗、去重、结构化、特征建设、质量&权威性&时效性评估等关键流程有深入理解；
2. 熟悉分布式数据计算与存储技术，如 Ray、Spark、Flink、Paimon 等，具备大规模数据处理系统设计与性能优化经验，能够与AI Infra及基础数据平台团队协同推进能力落地；
3.…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

业务场景
我们正在构建面向医疗健康领域的大模型能力和应用体系。医疗数据具有高度专业性、知识密度大、准确性要求极高的特点——一条错误的药物相互作用知识可能直接影响用户健康决策。
团队需要从海量医学文献、临床指南、药品说明书、疾病知识图谱等异构数据源中，建设高质量的预训练语料和结构化知识库，支撑大模型在医疗问答、健康咨询、临床辅助决策等场景下的权威性、正确性与实用性。
你将参与到以Data为中心、驱动内容理解、知识构建、数据合成和应用的全链路工作中，为千问app toC的医疗健康业务提供高质量的RAG内容供给，同时沉淀高质数据、保障模型能力的迭代提升。
你的工作将直接影响模型在医疗垂直领域的效果天花板——数据质量决定模型能力上限。
工作职责
1. 负责大规模数据采集与内容发现的架构设计、核心技术研发与持续优化，覆盖网页、文档、图片、视频等多种数据形态，实现高质量数据资源的自动化发现、采集与更新。
2. 负责大模型数据基建与演进，支撑海量数据的存储、治理、预处理、质量评估及版本管理，包括数据清洗、去重、相似度计算、脱敏、结构化转换等核心能力建设，保障医学数据的高度准确性、安全与合规。
3. 结合自然语言处理（NLP）、多模态理解、大模型等技术，对海量非结构化数据进行信息抽取、网页分析、内容聚类、标签体系建设等核心技术开发，构建高质量训练数据集和知识库体系，提升RAG效果
4. 与算法团队紧密协作，围绕大模型训练、微调、评测及应用落地需求，设计并优化数据规模、数据结构、数据质量和数据生产流程，持续提升模型训练效果。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Ray+

Spark+

Flink+

AI agent+

还有更多 •••

登录查看完整学习资料