字节跳动多模态大模型数据工程师-产品研发
任职要求
1、熟悉至少一种编程语言,如Go,Python,Java等; 2、对大数据技术有深入的理解加分,熟练掌握如Spark、Flink、Kafka、Hive、HDFS等工具加分;…
工作职责
1、设计和开发大规模预训练数据处理链路,为基座模型预训练提供稳定、可靠的高质量数据处理能力,包括数据寻源、数据抓取/采集、数据解析(OCR、图片、网页)等工作内容; 2、设计和开发服务大模型预训练的数据平台,管理数据的元信息、血缘、存储治理等数据全生命周期要素;提供预训练数据的可视化、可观测能力;探索数据实验、数据发版的工程上限; 3、针对LLM、VLM等模型构建数据合成方案和框架,支持数据Scale等工作; 4、根据大模型训练数据特点,抽象并开发高效、可靠的数据加工框架,提升所有大模型算法工程师处理数据的工程效率。
1. 参与多模态大模型、数据生成模型及世界模型的算法研发与优化,包括预训练、微调、强化学习等方向; 2. 探索大模型在文本、图像、视频等跨模态场景中的应用,推动技术落地; 3. 跟踪前沿技术(如Transformer、MoE、RLHF、Diffusion等),优化模型性能与推理效率; 4. 负责多模态大模型相关技术的研发和落地,包括但不限于各模态编码器,模型预训练,多模态对齐,场景微调等方面; 5. 与数据工程师,产品经理和架构工程师合作,确保模型效果与业务目标匹配; 6. 负责模型的维护和迭代,确保其在动态环境中的稳定性和可靠性。
-深入理解客户场景,将客户需求进行分类并抽象为标准任务类型 -将客户洞察映射至预训练或微调数据中,提升模型在客户评估中的表现 -基于客户/业务需求,结合ACG模型研发部的大模型能力,与大模型数据工程师、算法工程师密切合作,制定策略方案,提升多模态模型或推理模型在具体场景中的适配能力与表现 -协助构建“客户需求 ↔ 模型能力 ↔ 数据反馈”闭环,推动模型在真实业务中的应用效果最大化
我们是一个专注于空间智能的算法团队,致力于为出行行业提供精准的地图解决方案。我们正在寻找一名数据闭环工程师,帮助我们提升闭环迭代能力,为地图垂域大模型提供高质量数据。 作为数据闭环工程师,你将负责设计、开发以及优化数据闭环系统,以确保从数据采集、处理、生产到反馈的闭环全链路顺畅运行。你的工作将直接影响车道级导航地图的动态更新、高效迭代和精度增强,最终赋能自动驾驶、车道级导航等技术的发展。 岗位职责: 1、构建高效的数据闭环系统服务于多模态地图大模型的训练,设计从数据采集、产线作业、数据打标、模型训练的闭环流程。 2、负责场景挖掘、数据自动标注、生产即标注等关键环节的工程架构和模型方案。 3、负责车道级地图相关数据的清洗、处理和标准化,确保其符合闭环质量要求。 4、与AI工程师合作,优化多模态大模型对地图数据的使用;与地图生产团队协作,提升人工与自动标注环节的效率和一致性;与产品团队对接,定义地图生产的数据闭环链路。
基座大模型研发与创新 参与设计并研发面向大规模多元时间序列的预训练基座模型,探索适用于时序数据的 Transformer变体(如Informer,FEDformer, PatchTST)及创新架构。 负责构建超大规模,高质量的时序预训练数据集,设计掩码重建,上下文预测等自监督预训练任务。 研究时间序列中的关键问题,如长周期依赖建模,多尺度特征提取,缺失值处理,以及时序与文本/事件等多模态信息的对齐与融合。 模型深度优化与领域适配 针对特定高价值场景(如电力负荷预测,量化金融,工业设备预测性维护),对基座模型进行深度微调与优化,实现"通用能力"到"领域专家"的转化。 研发高效的模型适配技术(如参数高效微调 PEFT),确保基座模型能够快速,低成本地适配到多样化的下游任务。 系统工程与高性能推理 负责将模型从研究原型推进到稳定,高性能的生产级系统。优化训练框架,利用混合并行(数据并行,模型并行,流水线并行)技术实现千亿参数模型的分布式训练。 主导模型的高效推理优化,应用量化(INT8/ FP4),编译优化等技术,大幅降低服务延迟与资源消耗,支撑海量时序数据的实时预测需求。 技术前瞻与行业赋能 追踪时间序列分析,大模型预训练的前沿学术进展,并将有潜力的技术引入到产品研发中。 与业务团队紧密合作,深入理解行业痛点,将基座模型的强大能力转化为可衡量的业务价值,定义时间序列预测领域的新标准。 岗位要求 必备条件 计算机科学,人工智能,统计学或相关专业硕士及以上学历(博士优先).