米哈游LLM数据处理实习生
任职要求
职位要求: 1、计算机/软件工程等相关专业本科以上学历,拥有LLM相关专业硕士/博士学位者优先; 2、扎实的编程基础、良好的编程风格,熟悉多线程编程、分布式计算、网络通信、内存管理、设计模式; 3、熟悉多项大数据处理/分析相关的工具/框架,例如Hadoop、HDFS、Hive、MapReduce、Spark、Pres…
工作职责
职位描述: 1、参与LLM大模型的数据准备、数据清洗、数据实验等工作,构建高质量的LLM数据集 2、建设对标业内前沿的LLM训练数据集,并在此基础上进一步提升数据质量和多样性; 3、构建高质量LLM数据产出的Pipeline,包括文本数据质量、Pipeline的优化等;
职位描述: 1、参与LLM大模型的数据准备、数据清洗、数据实验等工作,构建高质量的LLM数据集 2、建设对标业内前沿的LLM训练数据集,并在此基础上进一步提升数据质量和多样性; 3、构建高质量LLM数据产出的Pipeline,包括文本数据质量、Pipeline的优化等;

1. 运用 Python 语言进行基于大模型的RAG数据应用开发,基于对历史SQL、专有知识库的相关物料的理解,为数据产品提供相关的AI Agent开发支持; 2. 开展 prompt 工程相关工作,根据不同业务场景与需求,设计、优化和测试 prompt,通过不断迭代提升大模型在各类任务中的表现,如SQL纠错、SQL生成、数据问答系统等; 3. 协助进行大模型应用的效果评估,建立评估指标体系,分析模型输出结果,提出改进建议并参与优化工作,持续提升数据应用的AI服务的有效性; 4. 探索基于开源大模型进行finetune操作,利用专有数据标注对模型进行有针对性的训练,使其更贴合公司特定业务领域的数据应用需求。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动国际化短视频的数据科学团队负责运用专业的统计学知识和技能、出色的商业思维为数亿用户提供更优质的使用体验,期待有志同道合的新伙伴加入! 1、数据支持与优化:为AIGC/LLM模型提供高质量的数据支持,包括数据收集、清洗、标注和预处理;设计和实施数据增强策略,提升模型的泛化能力和鲁棒性;分析模型输出数据,识别潜在问题并提出改进建议; 2、模型评估与调优:开发评估指标和测试框架,评估AIGC/LLM模型在不同应用场景中的表现;基于数据分析结果,提出模型调优方案,并与算法团队合作实施; 3、数据驱动决策:通过数据分析和挖掘,为产品团队提供数据驱动的决策支持;跟踪行业最新趋势,探索AIGC/LLM领域的新数据源和应用场景; 4、跨团队协作:与算法工程师、产品经理、业务团队紧密合作,确保数据支持与业务需求对齐;参与项目需求讨论,提供数据科学角度的专业建议; 5、英语沟通:支持纯英文环境下,跨多团队,多国家地区的项目沟通与协调。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动国际化短视频的数据科学团队负责运用专业的统计学知识和技能、出色的商业思维为数亿用户提供更优质的使用体验,期待有志同道合的新伙伴加入! 1、数据支持与优化:为AIGC/LLM模型提供高质量的数据支持,包括数据收集、清洗、标注和预处理;设计和实施数据增强策略,提升模型的泛化能力和鲁棒性;分析模型输出数据,识别潜在问题并提出改进建议; 2、模型评估与调优:开发评估指标和测试框架,评估AIGC/LLM模型在不同应用场景中的表现;基于数据分析结果,提出模型调优方案,并与算法团队合作实施; 3、数据驱动决策:通过数据分析和挖掘,为产品团队提供数据驱动的决策支持;跟踪行业最新趋势,探索AIGC/LLM领域的新数据源和应用场景; 4、跨团队协作:与算法工程师、产品经理、业务团队紧密合作,确保数据支持与业务需求对齐;参与项目需求讨论,提供数据科学角度的专业建议; 5、英语沟通能力:英语作为工作语言,跨多团队,多国家地区的项目沟通与协调。