logo of bytedance

字节跳动数据开发工程师-大模型知识工程

社招全职A186937地点:北京状态:招聘

任职要求


1、熟悉至少一种编程语言,如Go, Python, Java等;
2、对大数据技术有深入的理解加分,熟练掌握如Spark、Flink、Kafka、Hive、HDFS等工具加分…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、设计和开发大规模预训练数据处理链路,为基座模型预训练提供稳定、可靠的高质量数据处理能力,包括数据寻源、数据抓取/采集、数据解析(OCR、图片、网页)等工作内容;
2、设计和开发服务大模型预训练的数据平台,管理数据的元信息、血缘、存储治理等数据全生命周期要素;提供预训练数据的可视化、可观测能力;探索数据实验、数据发版的工程上限;
3、针对LLM、VLM等模型构建数据合成方案和框架,支持数据Scale等工作;
4、根据大模型训练数据特点,抽象并开发高效、可靠的数据加工框架,提升所有大模型算法工程师处理数据的工程效率。
包括英文材料
Go+
Python+
Java+
大数据+
Spark+
还有更多 •••
相关职位

logo of fliggy
社招3年以上

1.负责飞猪搜索、推荐、广告等多个业务场景的数据建设工作,包括特征工程、中间层建设、数据分析洞察等工作; 2.负责飞猪AI项目数据资产建设,包括大模型日志数据、知识数据、训练(SFT/PreTrain)等; 3.负责数据成本及稳定性相关工作

更新于 2025-10-21杭州
logo of nio
校招数据分析

1. 参与公司大数据平台的设计与开发工作,运用先进技术优化平台架构,提升平台性能与稳定性,确保能够高效处理海量数据; 2. 负责数据仓库的建设,包括数据模型的设计与构建。深入理解业务需求,运用维度建模等方法,构建科学合理的数据模型,为数据分析和决策提供坚实的数据基础; 3. 承担数据集成数据开发和数据运维工作。从多种数据源获取数据,运用数据清洗算法和工具,去除噪声数据和重复数据,将数据转换为适合分析的格式,并高效加载到数据仓库中; 4. 与数据分析师、算法工程师等团队紧密合作,为数据分析和算法模型提供高质量的数据支持。理解需求,提供定制化的数据服务,助力挖掘数据价值,推动业务发展; 5. 参与数据治理工作,制定并执行数据质量标准,保障数据的准确性、完整性和一致性。通过元数据、质量体系有效管理和组织PB级别数据

更新于 2025-08-25上海
logo of antgroup
社招技术类-算法

大模型数据认知方向,负责设计和开发先进的算法,解决大模型数据生产中的关键问题,包括但不限于数据知识体系生成、语料自动分类、智能数据标注、权威评测集建设以及基于评测的语料质量评估与合成。你的工作将直接影响蚂蚁大模型的训练效果和性能表现。工作将涉及以下1个或多个方向 ● 数据知识体系生成: 研究基于LLM的自动知识图谱生成技术,设计并实现自动化算法,构建高效、可扩展的大模型数据知识体系。 ● 语料自动分类: 基于数据知识体系,研究和开发语料分类算法,指导大模型数据的拓展方向; ● 权威评测集建设: 研究业界现有评测集的缺陷,构建标准化、多样化的权威评测集,用于评估大模型的性能; 与跨职能团队合作,确保评测集覆盖全面且具有代表性。 ● 语料质量评估与合成: 建立大模型训练的数据驱动体系,开发语料质量评估算法,识别低质量或噪声数据。 研究数据驱动的语料合成技术,基于模型的评测效果,针对性合成能够改进模型效果的训练语料,提升模型迭代效率 ● 智能标注链路研发: 基于大模型数据的标注需求,研发辅助打标算法; 设计构建 AI辅助的标注质量检验与标注提效的算法链路,提升人工标注的质检效率与标注质量 ● 技术创新与优化: 持续跟踪学术界和工业界的最新研究成果,探索前沿技术在大模型数据中的应用。 针对实际业务需求,提出创新性的解决方案并快速落地。

更新于 2025-06-18杭州
logo of antgroup
社招3年以上风险管理-风险策

大模型数据认知方向,负责设计和开发先进的算法,解决大模型数据生产中的关键问题,包括但不限于数据知识体系生成、语料自动分类、智能数据标注、权威评测集建设以及基于评测的语料质量评估与合成。你的工作将直接影响蚂蚁大模型的训练效果和性能表现。工作将涉及以下1个或多个方向 1、数据知识体系生成: 研究基于LLM的自动知识图谱生成技术,设计并实现自动化算法,构建高效、可扩展的大模型数据知识体系。 2、语料自动分类: 基于数据知识体系,研究和开发语料分类算法,指导大模型数据的拓展方向; 3、权威评测集建设: 研究业界现有评测集的缺陷,构建标准化、多样化的权威评测集,用于评估大模型的性能; 与跨职能团队合作,确保评测集覆盖全面且具有代表性。 4、语料质量评估与合成: 建立大模型训练的数据驱动体系,开发语料质量评估算法,识别低质量或噪声数据。 研究数据驱动的语料合成技术,基于模型的评测效果,针对性合成能够改进模型效果的训练语料,提升模型迭代效率 5、智能标注链路研发: 基于大模型数据的标注需求,研发辅助打标算法; 设计构建 AI辅助的标注质量检验与标注提效的算法链路,提升人工标注的质检效率与标注质量 6、技术创新与优化: 持续跟踪学术界和工业界的最新研究成果,探索前沿技术在大模型数据中的应用。 针对实际业务需求,提出创新性的解决方案并快速落地。

更新于 2025-09-09杭州