logo of tcl

TCLAI数据架构师

社招全职3年以上研发技术类地点:深圳状态:招聘

任职要求


任职要求
1.	硕士及以上学历,计算机、人工智能等专业优先;优异者条件可适当放宽。
2.	 具备3年以上数据处理或模型训练工作经验,熟练掌握文本、多模态等非结构化数据处理方法,精通数据清洗、特征提取和数据增强等技术,能够解决数据工作中各种问题。
3.	 精通PythonJava等至少一种编程语言,熟悉常用的数据处理、文本处理和图像处理库,能够高效地实现数据清洗和处理的算法
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.	数据体系构建与优化
•	负责构建和完善企业数据体系,整合多源数据,包括但不限于业务系统数据、用户行为数据、第三方数据等,确保数据的完整性与准确性,为模型训练提供各类训练数据。
•	根据不同领域场景大模型落地需求,提出大模型训练和优化数据规模、数据类型、数据结构等建议,确保架构有效实施。
2.	数据处理与分析
•	运用 ETL 等工具和技术,进行数据抽取、清洗、转换和加载,确保数据质量,为数据分析和建模提供高质量的数据。
•	针对业务需求,进行数据挖掘与分析,构建数据分析模型,负责搭建大模型数据平台:支撑大模型数据的存储、预处理(去重、相似度计算、脱敏等)诉求,针对大模型场景、数据类型、数据规模具有高扩展性,以支持大模型数据集持续迭代,实现高质量数据集沉淀,确保数据安全和隐私保护。 
•	与算法团队紧密协作,抽象研发需求,对训练数据进行定义和处理。
3.	数据平台开发与维护
•	参与大数据平台的设计与开发,结合企业业务特点,搭建分布式大数据技术平台,实现数据的高效存储、实时查询与处理。
•	负责大数据系统的日常管理与维护,及时处理系统故障与问题,保障数据平台的稳定运行,为企业数据应用提供可靠的技术支持。
包括英文材料
学历+
Python+
Java+
图像处理+
算法+
Hudi+
Iceberg+
Hive+
还有更多 •••
相关职位

logo of bytedance
社招3年以上A125392

1、负责智创AI平台大数据架构演进以及推进落地:根据不同领域场景大模型落地需求,提出大模型训练和优化数据规模、数据类型、数据结构等建议; 2、负责搭建大模型数据平台:支撑大模型数据的存储、预处理(去重、相似度计算、脱敏等)诉求,并且针对大模型场景、数据类型、数据规模有足够的扩展性,以支撑大模型数据集持续迭代,实现高质量数据集沉淀; 3、负责大模型数据分析:通过对文本、图像等数据内容特征深入分析,提炼有价值的数据集分类标签,为数据质量改进提供依据; 4、负责数据生成和数据增强:基于种子数据,运用大模型工具生成完善数据集。

更新于 2024-05-13北京
logo of fliggy
社招5年以上

1、主导飞猪旅行大数据架构设计,建立高效、可扩展、安全的数据基础设施,为AI驱动的产品研发提供可靠支持。 2、构建高效、高性能的数据平台,优化数据流处理和API集成,支持多业务场景和复杂异构数据源的管理与分析。 3、主导设计AI驱动的智能Data Agent,为飞猪各业务线提供动态数据分析、实时决策建议和自动化交付能力。 4、运用前沿AI技术(生成式AI、大语言模型、知识图谱等),驱动飞猪旅行业务的数字化转型与核心场景智能化建设。 5、能够协同产品、市场、运营、技术等团队深度合作,为飞猪旅行的数据及AI能力赋能产研运,确保产品从设计到落地的顺利执行。

更新于 2025-12-18杭州
logo of kuaishou
校招J1020

1、负责研发快手的机器学习平台,作为公司级的平台,支撑了包括推荐、广告、搜索等核心业务的算法迭代; 2、通过自研大数据引擎,构建特征工程领域的高性能计算存储框架和统一开发平台,支持算法团队的研发效率; 3、重点研究海量数据的存储与传输格式,分布式计算框架,算法DSL语言,TaskFlow 等技术,不断优化模型工程的系统效率。

更新于 2025-07-30北京
logo of bytedance
社招5年以上A92307

1、负责AI时代的数据库架构设计:涵盖支持AI/ML工作负载的新型数据库系统架构,优化AI模型训练与推理的数据访问效率;构建支持向量搜索、图计算、时序分析等AI场景的混合型数据库解决方案,探索LLM大模型与数据库系统的深度集成方案,如自然语言SQL生成、智能查询优化; 2、负责数据库智能策略研发:研发基于AI的数据库性能调优系统,包括自动索引推荐、查询计划优化、资源分配策略等;构建智能监控系统,实现异常检测、根因分析、容量预测等AIOps能力;开发自适应存储引擎,根据数据访问模式动态调整存储结构; 3、负责AI数据基础设施构建:构建AI数据基础设施,如支持特征工程、模型训练、推理服务的全流程数据管道架构,实现数据库与机器学习框架(TensorFlow/PyTorch)的高效对接; 4、负责AI与数据库结合的实践方案探索与落地:探索AI技术和数据库各产品结合的最佳实践方案并落地,服务超大规模的集团内部业务及火山引擎业务。

更新于 2025-03-05成都