字节跳动算法工程师-大模型数据工程
任职要求
1、熟悉自然语言处理相关领域的常见技术,具备扎实的NLP基础知识; 2、编程基本功扎实、熟悉常用数据结构和算法,有大规模数据处理的经验; 3、…
工作职责
1、参与语料挖掘、清洗、去重、聚类、合成、生成等相关工作,为大模型训练的各个阶段做准备; 2、参与语料分类、向量表征、元数据抽取相关工作,使得大模型训练有更大空间; 3、参与语料 & 任务指令数据的构建效率 & 覆盖率 & 质量提升等相关工作。
1、设计和开发大规模预训练数据处理链路,为基座模型预训练提供稳定、可靠的高质量数据处理能力,包括数据寻源、数据抓取/采集、数据解析(OCR、图片、网页)等工作内容; 2、设计和开发服务大模型预训练的数据平台,管理数据的元信息、血缘、存储治理等数据全生命周期要素;提供预训练数据的可视化、可观测能力;探索数据实验、数据发版的工程上限; 3、针对LLM、VLM等模型构建数据合成方案和框架,支持数据Scale等工作; 4、根据大模型训练数据特点,抽象并开发高效、可靠的数据加工框架,提升所有大模型算法工程师处理数据的工程效率。
1、负责代码、文本、多模态等数据的合成技术的研究与开发,运用大模型和先进算法,生成高质量、多样化的合成数据,扩充数据规模与多样性,满足大模型训练需求; 2、对大模型训练数据进行深入分析,运用统计学、机器学习等方法挖掘数据特征和规律,识别数据中的噪声、偏差和潜在问题,为数据合成、标注和质量过滤提供数据洞察和优化方向; 3、研究并实现高效的数据自动标注算法,结合自然语言处理、计算机视觉等技术,开发自动化标注工具和流程,提升标注效率和准确性,降低人工标注成本; 4、设计并优化数据质量评估指标和过滤算法,建立数据质量监控体系,对原始数据、合成数据和标注后的数据进行全面质量检测和筛选,确保输入大模型的数据真实、准确、合规; 5、持续跟踪行业前沿数据技术动态,对现有数据处理算法和流程进行优化升级;产品、工程等团队紧密协作,推动数据处理技术在大模型研发和应用中的高效落地。
项目内容介绍: 人工智能和大模型数据智能服务项目。主要分为以下两个方向: 1、GPT应用平台场景,打造企业级一站式大模型平台,提供先进的生成式AI生产及应用全流程开发工具链;支持了公司辅助营销、智能客服等众多智能化应用。 2、整车行业智能化场景的解决方案,包括;研发和生产数字化、数字化营销和服务等。 - 通过先进的数据分析和人工智能算法,实现生产资源的优化配置和生产流程的精细化管理; - 通过AI检测提高产品质量、提升生产效率、降低生产成本以及优化生产工艺; - 通过AI的数据挖掘和分析,为产品设计、制造、测试等环节提供决策支持; - 通过AI辅助生成营销文案,处理大量的客户咨询和服务请求,降低运营成本,提高效率等。 职位描述: 1. 深入参与公司在大模型、深度学习等前沿领域的研究和开发工作; 2. 负责关键算法的设计、实现与优化,解决技术难题,提升产品性能; 3. 与产品、工程团队紧密合作,确保项目的顺利推进; 4. 跟踪业界最新学术论文与技术动态,进行技术预研和储备,为公司的发展提供有力支持;
项目内容介绍: 人工智能和大模型数据智能服务项目。主要分为以下两个方向: 1、GPT应用平台场景,打造企业级一站式大模型平台,提供先进的生成式AI生产及应用全流程开发工具链;支持了公司辅助营销、智能客服等众多智能化应用。 2、整车行业智能化场景的解决方案,包括;研发和生产数字化、数字化营销和服务等。 - 通过先进的数据分析和人工智能算法,实现生产资源的优化配置和生产流程的精细化管理; - 通过AI检测提高产品质量、提升生产效率、降低生产成本以及优化生产工艺; - 通过AI的数据挖掘和分析,为产品设计、制造、测试等环节提供决策支持; - 通过AI辅助生成营销文案,处理大量的客户咨询和服务请求,降低运营成本,提高效率等。 职位描述: 1. 深入参与公司在大模型、深度学习等前沿领域的研究和开发工作; 2. 负责关键算法的设计、实现与优化,解决技术难题,提升产品性能; 3. 与产品、工程团队紧密合作,确保项目的顺利推进; 4. 跟踪业界最新学术论文与技术动态,进行技术预研和储备,为公司的发展提供有力支持;