logo of bytedance

字节跳动数据开发工程师-大模型知识工程

社招全职A186937地点:北京状态:招聘

任职要求


1、熟悉至少一种编程语言,如Go, Python, Java等;
2、对大数据技术有深入的理解加分,熟练掌握如SparkFlinkKafkaHiveHDFS等工具加分;
3、有数据中台、机器学习相关的系统平台开发、深度使用经验加分;
4、对大模型技术、产品生态有深入了解加分;
5、有面对技术挑战的热情,能独立思考,具有好奇心和快速学习能力。

工作职责


1、设计和开发大规模预训练数据处理链路,为基座模型预训练提供稳定、可靠的高质量数据处理能力,包括数据寻源、数据抓取/采集、数据解析(OCR、图片、网页)等工作内容;
2、设计和开发服务大模型预训练的数据平台,管理数据的元信息、血缘、存储治理等数据全生命周期要素;提供预训练数据的可视化、可观测能力;探索数据实验、数据发版的工程上限;
3、针对LLM、VLM等模型构建数据合成方案和框架,支持数据Scale等工作;
4、根据大模型训练数据特点,抽象并开发高效、可靠的数据加工框架,提升所有大模型算法工程师处理数据的工程效率。
包括英文材料
Go+
Python+
Java+
大数据+
Spark+
Kafka+
Hive+
HDFS+
机器学习+
大模型+
相关职位

logo of nio
校招数据分析

1. 参与公司大数据平台的设计与开发工作,运用先进技术优化平台架构,提升平台性能与稳定性,确保能够高效处理海量数据; 2. 负责数据仓库的建设,包括数据模型的设计与构建。深入理解业务需求,运用维度建模等方法,构建科学合理的数据模型,为数据分析和决策提供坚实的数据基础; 3. 承担数据集成数据开发和数据运维工作。从多种数据源获取数据,运用数据清洗算法和工具,去除噪声数据和重复数据,将数据转换为适合分析的格式,并高效加载到数据仓库中; 4. 与数据分析师、算法工程师等团队紧密合作,为数据分析和算法模型提供高质量的数据支持。理解需求,提供定制化的数据服务,助力挖掘数据价值,推动业务发展; 5. 参与数据治理工作,制定并执行数据质量标准,保障数据的准确性、完整性和一致性。通过元数据、质量体系有效管理和组织PB级别数据

更新于 2025-08-25
logo of antgroup
社招技术类-算法

大模型数据认知方向,负责设计和开发先进的算法,解决大模型数据生产中的关键问题,包括但不限于数据知识体系生成、语料自动分类、智能数据标注、权威评测集建设以及基于评测的语料质量评估与合成。你的工作将直接影响蚂蚁大模型的训练效果和性能表现。工作将涉及以下1个或多个方向 ● 数据知识体系生成: 研究基于LLM的自动知识图谱生成技术,设计并实现自动化算法,构建高效、可扩展的大模型数据知识体系。 ● 语料自动分类: 基于数据知识体系,研究和开发语料分类算法,指导大模型数据的拓展方向; ● 权威评测集建设: 研究业界现有评测集的缺陷,构建标准化、多样化的权威评测集,用于评估大模型的性能; 与跨职能团队合作,确保评测集覆盖全面且具有代表性。 ● 语料质量评估与合成: 建立大模型训练的数据驱动体系,开发语料质量评估算法,识别低质量或噪声数据。 研究数据驱动的语料合成技术,基于模型的评测效果,针对性合成能够改进模型效果的训练语料,提升模型迭代效率 ● 智能标注链路研发: 基于大模型数据的标注需求,研发辅助打标算法; 设计构建 AI辅助的标注质量检验与标注提效的算法链路,提升人工标注的质检效率与标注质量 ● 技术创新与优化: 持续跟踪学术界和工业界的最新研究成果,探索前沿技术在大模型数据中的应用。 针对实际业务需求,提出创新性的解决方案并快速落地。

更新于 2025-06-18
logo of antgroup
社招3年以上风险管理-风险策

大模型数据认知方向,负责设计和开发先进的算法,解决大模型数据生产中的关键问题,包括但不限于数据知识体系生成、语料自动分类、智能数据标注、权威评测集建设以及基于评测的语料质量评估与合成。你的工作将直接影响蚂蚁大模型的训练效果和性能表现。工作将涉及以下1个或多个方向 1、数据知识体系生成: 研究基于LLM的自动知识图谱生成技术,设计并实现自动化算法,构建高效、可扩展的大模型数据知识体系。 2、语料自动分类: 基于数据知识体系,研究和开发语料分类算法,指导大模型数据的拓展方向; 3、权威评测集建设: 研究业界现有评测集的缺陷,构建标准化、多样化的权威评测集,用于评估大模型的性能; 与跨职能团队合作,确保评测集覆盖全面且具有代表性。 4、语料质量评估与合成: 建立大模型训练的数据驱动体系,开发语料质量评估算法,识别低质量或噪声数据。 研究数据驱动的语料合成技术,基于模型的评测效果,针对性合成能够改进模型效果的训练语料,提升模型迭代效率 5、智能标注链路研发: 基于大模型数据的标注需求,研发辅助打标算法; 设计构建 AI辅助的标注质量检验与标注提效的算法链路,提升人工标注的质检效率与标注质量 6、技术创新与优化: 持续跟踪学术界和工业界的最新研究成果,探索前沿技术在大模型数据中的应用。 针对实际业务需求,提出创新性的解决方案并快速落地。

更新于 2025-09-09
logo of ke
社招3年以上质量架构部

1.参与基于多模态大模型的GUI智能化能力的设计开发,实现多端(web/安卓/ios/鸿蒙/小程序)大模型手眼配套能力全覆盖; 2.跟踪业界前沿技术发展,参与大模型应用评测、企业内部场景化落地、GUI智能体建设等;

更新于 2025-03-27