夸克千问C端事业群-数据研发专家-杭州
社招全职5年以上技术类-数据地点:杭州状态:招聘
任职要求
1. 丰富的大数据研发经验,主导过复杂数据体系从0到1建设或大规模演进;能结合业务场景设计高复用、可扩展的数据资产体系,有跨境业务经验者优先 2. 深入理解湖仓一体架构,具备Paimon等湖表格式的生产级开发、优化或治理经验,能推动流批一体、增量计算等先进范式落地; 3. 有从事分布式数据存储与计算平台应用开发经验,有Hadoop、Spark、Spark Streaming、Storm、Fli…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 负责千问智能硬件业务的数据资产建设;联合BI赋能管理决策,共建1+N+N决策数据产品,服务销售,市场,运营,体验,工程,算法等业务场景; 2. 深入理解业务架构和需求,参与智能硬件业务软硬一体的端到端的数据架构设计与建设,包括统一采集、数据资产建设与管理和数据质量及稳定性保障体系等; 3. 深度理解业务,通过对业务策略和痛点的分析,利用数据监控、分析和挖掘等能力,在用户增长、内容运营、商业化运营等业务场景中提供系统性的解决方案并落地 4. 面向智能互联业务场景构建AI数据取数产品,提升组织经营决策效率。 5. 主导或参与湖仓一体的数据架构演进,推动数据采集、治理、质量保障、自动化运维体系的持续优化。
包括英文材料
大数据+
https://www.youtube.com/watch?v=bAyrObl7TYE
https://www.youtube.com/watch?v=H4bf_uuMC-g
With all this talk of Big Data, we got Rebecca Tickle to explain just what makes data into Big Data.
Hadoop+
https://www.runoob.com/w3cnote/hadoop-tutorial.html
Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。
[英文] Hadoop Tutorial
https://www.tutorialspoint.com/hadoop/index.htm
Hadoop is an open-source framework that allows to store and process big data in a distributed environment across clusters of computers using simple programming models.
Spark+
[英文] Learning Spark Book
https://pages.databricks.com/rs/094-YMS-629/images/LearningSpark2.0.pdf
This new edition has been updated to reflect Apache Spark’s evolution through Spark 2.x and Spark 3.0, including its expanded ecosystem of built-in and external data sources, machine learning, and streaming technologies with which Spark is tightly integrated.
Apache Storm+
[英文] Tutorial
https://storm.apache.org/releases/2.6.0/Tutorial.html
In this tutorial, you'll learn how to create Storm topologies and deploy them to a Storm cluster.
https://www.baeldung.com/apache-storm
This tutorial will be an introduction to Apache Storm, a distributed real-time computation system.
Flink+
https://nightlies.apache.org/flink/flink-docs-release-2.0/docs/learn-flink/overview/
This training presents an introduction to Apache Flink that includes just enough to get you started writing scalable streaming ETL, analytics, and event-driven applications, while leaving out a lot of (ultimately important) details.
https://www.youtube.com/watch?v=WajYe9iA2Uk&list=PLa7VYi0yPIH2GTo3vRtX8w9tgNTTyYSux
Today’s businesses are increasingly software-defined, and their business processes are being automated. Whether it’s orders and shipments, or downloads and clicks, business events can always be streamed. Flink can be used to manipulate, process, and react to these streaming events as they occur.
还有更多 •••
相关职位
社招3年以上技术类-开发
1. 负责数据平台研发,覆盖全模态(文本、图片、音视频)、全生命周期的数据处理和管控,支持各业务场景的高质量数据供给; 2. 研发全模态数据处理引擎,与基础调度团队协同,实现大规模异构计算、沉淀各模态数据处理的核心算子,大幅提升业务流程承接效率、降低数据处理成本; 3. 构建数据管控、探查及归因等平台能力,与语料&业务数据交付团队协同,沉淀数据资产、完善数据画像,实现数据的业务价值反馈模型,通过数据飞轮来持续优化数据和业务效果; 4. 打造AI数据标注平台,支持全模态数据标注,沉淀标注数据资产,通过AI辅助标注、AI标自动标注&质检等能力、显著提升数据标注效率。
更新于 2026-02-09北京|杭州
社招3年以上技术类-开发
1. 负责夸克业务的离线流程开发与迭代,构建高效稳定的端到端数据处理流水线; 2. 深入优化数据采集、清洗、标注、报表等核心流程,提升整体处理效率; 3. 引入业界新技术,推动流程架构升级,实现业务性能、系统稳定性和成本效益的持续提升。
更新于 2025-12-25杭州
社招3年以上技术类-开发
1. 负责大模型数据研发方向,为LLM、VLM、ASR、TTS及omni model的训练供给优质语料数据,推动各业务场景提升模型训练效果; 2. 与算法团队协同、搭建各模态数据处理pipeline,利用业界先进技术对数据进行清洗、去重、打标、标注、圈选、打包,交付优质数据进行模型训练,提升整体交付效率和数据质量; 3. 与数据采集团队协同,推动前沿数据获取策略的研发与落地,探索合成数据技术,主动解决特定领域或模-态的数据稀缺与多样性挑战; 4. 构建各模态数据分类&质量体系及数据画像,对数据进行多维度、细粒度分析,基于模型训练效果反馈进行数据挖掘,指导数据收录优化方向,构建数据飞轮。
更新于 2026-02-06北京|杭州