字节跳动大模型多模态数据处理专家
社招全职A08870地点:北京状态:招聘
任职要求
1、本科及以上学历,数学、统计学、计算机科学专业优先;
2、Hugging Face、Model Scope社区达人优先,熟悉Hugging Face Datasets、Data-Juicer、La…登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、负责大模型多模态数据处理产品的研发,打造大模型时代数据处理toB产品; 2、负责大数据平台产品与多模态数据处理产品的深度联动研发; 3、结合字节跳动、国内客户场景诉求,支撑多模态数据处理需求; 4、负责Data + RAG 方向研发和场景落地。
包括英文材料
学历+
LangChain+
https://python.langchain.com/docs/tutorials/
New to LangChain or LLM app development in general? Read this material to quickly get up and running building your first applications.
https://www.freecodecamp.org/news/beginners-guide-to-langchain/
LangChain is a popular framework for creating LLM-powered apps.
还有更多 •••
相关职位
社招A124023A
1、负责大模型多模态数据处理产品的研发,打造大模型时代数据处理toB产品; 2、负责大数据平台产品与多模态数据处理产品的深度联动研发; 3、结合字节跳动、国内客户场景诉求,支撑多模态数据处理需求; 4、负责Data + RAG 方向研发和场景落地。
更新于 2024-06-13杭州
社招3-5年D1915
1、面向AIGC行业的基础模型领域,完成多模态大数据系统和核心组件的架构和开发; 2、设计并维护覆盖大模型多模态数据全生命周期的数据系统,包括数据采集,挖掘,构造,分析和价值验证等; 3、理解AIGC的数据需求和逻辑,建设智能高效的数据挖掘手段,实现海量多模态数据的有效治理和数据效果高效转化。
更新于 2025-11-17北京
社招3-5年D4124
1、数据特征算法方案制定与效果优化:针对不同模态、多种类目的数据,设计自动化筛选方案;对多模态数据涉及的前沿特征算法(如物体跟踪、ID 重识别、音频分离)进行场景化效果优化。与算法工程师协作,制定数据调整与扩展策略,提升模型在真实场景中的生成能力; 2、数据 pipeline 建设:负责多模态大模型训练数据的构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,支持模型持续迭代; 3、数据分布分析:对模型训练数据分布进行详细分析,识别数据偏差、不均衡及潜在问题。提供可视化报告及改进建议,确保训练数据覆盖目标场景并满足多样性需求,最终通过数据驱动方法优化视频生成大模型效果。
更新于 2025-12-02北京