夸克千问事业部-语料数据处理工程架构负责人-北京/杭州
任职要求
1. 主导设计和落地过大规模AI语料数据处理平台或数据生产系统,具备从0到1或大规模演进语料数据体系的经验,能够从工程架构层面构建支撑语料数据全生命周期的系统能力; 2. 具备大规模数据处理经验,熟悉网页、文档、文本、图片及音视频等多模态语料数据处理技术,对语料清洗、去重、过滤、结构化、对齐及质量评估等关键流程有深入理解; 3. 熟悉分布式数据计算与存储技术,如 Ray、Spark、Flink、Paimon 等,具备大规模数据处…
工作职责
1. 负责语料数据处理工程架构的整体设计与演进,覆盖文本、图片、音视频等多模态语料的清洗、处理、与交付,支撑千问app toC业务场景的高质量语料供给; 2. 负责语料数据处理体系的架构设计与能力建设,基于对模型训练需求与语料特性的理解,设计标准化的数据处理算子与Pipeline体系(如清洗、去重、过滤、结构化、对齐、质量评估等),与基础调度及AI Infra团队协同,实现大规模语料数据处理的效率提升与成本优化; 3. 构建语料数据管控、数据画像与数据资产管理能力,对语料数据的来源、结构、分布、质量、覆盖度及使用效果进行系统化刻画,实现语料数据的可管理、可理解、可追溯,为模型训练与业务优化提供数据洞察与决策支持; 4. 打造语料数据质量评估平台,支持多模态语料数据质量分析,沉淀高质量语料数据资产,并通过AI能力显著提升语料生产效率与质量; 5. 构建语料数据分析与效果归因能力,打通“语料数据—模型训练—业务效果”的反馈链路,通过数据分析识别关键数据问题与数据缺口,指导语料数据采集、处理与标注策略,形成持续优化的数据飞轮; 6. 作为工程架构负责人,统筹语料数据处理相关技术方向与系统演进,带领团队完成关键系统建设,并与算法、业务及AI基础平台团队协同,推动语料数据体系在各类AI场景中的落地。
1、针对具体任务场景(如语音识别、机器翻译、图像理解、文本生成等),开展深度学习模型的算法设计与创新,探索新型神经网络架构(如Transformer、MoE、扩散模型等),提升模型在复杂环境下的准确性、鲁棒性与泛化能力。负责端到端建模优化,结合上下文理解、对话状态追踪或多模态融合技术,增强系统在连续交互场景中的语义理解与响应能力。构建高质量训练数据体系,设计自动化语料清洗、标注与增强方案,覆盖多语言、多方言、噪声或小样本等挑战性场景,支撑模型持续迭代。 2、参与大规模预训练模型(LLM、VL模型等)的研发与微调,包括指令微调、对齐优化、提示工程及推理加速,提升模型在下游任务中的表现。探索大模型在跨模态理解(图文、音视频)、实时生成、知识推理等场景的应用路径,推动AIGC、智能摘要、自动字幕、翻译等业务的技术升级。研发高效微调技术(LoRA、Adapter等)与模型服务架构,实现大模型在资源受限环境下的灵活部署。 3、推动模型轻量化与推理加速,应用模型压缩、量化、蒸馏、剪枝等技术,提升模型在移动端、边缘设备或云端的运行效率。协同工程团队完成算法模块的高性能集成,优化分布式训练与推理框架,保障系统低时延、高并发与稳定性。支持多平台部署(移动端、PC端、Web端、云服务),参与全链路性能调优与监控体系建设。 4、跟踪人工智能领域最新研究进展(CV/NLP/ASR/TTS/MT等),结合业务需求进行技术预研与原型验证。与产品、数据、工程团队紧密协作,深入理解用户场景,推动AI能力在实际产品中的创新应用。
1. 负责千问&夸克移动端和PC前端业务的开发和维护,包括但不限于PC首页、搜索结果页、夸克小说、夸克文档等前端内容业务; 2. 负责前端业务的架构设计工作,推进整体方案拉通及实现落地,并通过技术的手段持续改善性能和体验; 3. 主导或参与创新产品技术方向探索和业务落地,参与前端工程化、性能、Serverless等新技术的建设和推广落地当中。
1. 负责千问、夸克和UC等多端的运营业务开发,包括但不限于首页、活动、福利、小说和AI创作等业务,建设相关的基础平台,包括但不限于内容运营、权益玩法、AIGC和低代码搭建等的平台能力; 2. 负责服务端系统的架构和关键模块设计,主导攻坚技术难题,推进整体方案拉通及实现落地,持续提升系统的性能、稳定性和可用性,应对大流量、高并发的在线请求挑战; 3. 参与探索AI相关技术在运营业务及平台的应用及落地,如角色聊天、AIGC等,建设AI工具来提升平台的运营效率及质量。