米哈游LLM数据处理实习生

实习兼职程序&技术类地点：上海状态：招聘

扫码手机上打开

任职要求

职位要求：
1、计算机/软件工程等相关专业本科以上学历，拥有LLM相关专业硕士/博士学位者优先；
2、扎实的编程基础、良好的编程风格，熟悉多线程编程、分布式计算、网络通信、内存管理、设计模式；
3、熟悉多项大数据处理/分析相关的工具/框架，例如Hadoop、HDFS、Hive、MapReduce、Spark、Pres…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

职位描述：
1、参与LLM大模型的数据准备、数据清洗、数据实验等工作，构建高质量的LLM数据集
2、建设对标业内前沿的LLM训练数据集，并在此基础上进一步提升数据质量和多样性；
3、构建高质量LLM数据产出的Pipeline，包括文本数据质量、Pipeline的优化等；

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

多线程+

设计模式+

Hadoop+

HDFS+

Hive+

MapReduce+

还有更多 •••

登录查看完整学习资料

相关职位

LLM数据处理实习生

实习程序&技术类

职位描述： 1、参与LLM大模型的数据准备、数据清洗、数据实验等工作，构建高质量的LLM数据集 2、建设对标业内前沿的LLM训练数据集，并在此基础上进一步提升数据质量和多样性； 3、构建高质量LLM数据产出的Pipeline，包括文本数据质量、Pipeline的优化等；

上海

LLM数据处理

社招程序&技术类

1、参与LLM大模型的数据准备、数据清洗、质量过滤及数据实验等工作，交付高质量训练数据； 2、参与建设对标业内前沿的LLM训练数据集，并在此基础上持续迭代，进一步提升数据质量和多样性； 3、参与构建和维护高性能LLM数据处理Pipeline，优化链路成本，提升性能和稳定性； 4、与算法同学协作，参与大模型训练数据的质量分析、评估体系建设和数据迭代，推动模型效果提升。

上海

LLM预训练数据算法实习生

实习程序&技术类

职位描述作为一名核心的数据算法实习生，你将直接参与构建和优化我们核心大语言模型的预训练数据。你将从数据源头开始，通过科学的数据工程与算法策略，深刻影响模型的底层能力、知识广度和思想深度。岗位职责：数据工程与基建：负责大模型预训练数据的全流程构建，包括多源数据发现与评估、自动化清洗与去重、结构化与内容安全处理；数据策略与实验：设计并执行数据配比、质量筛选、混合合成策略的对比实验，以科学方法驱动模型性能的持续提升；前沿数据构建：洞察模型能力的瓶颈，主动构想并构建能突破当前模型“天花板”的新型训练数据（如高质量对话、复杂推理链、代码-文本对等），探索数据创新的前沿；数据效果分析：分析模型在不同数据上的训练动态与性能表现，建立“数据-模型能力”的量化洞察，为数据决策提供依据。

上海

数据技术及产品部-数据研发工程师-数据资产 / LLM Agent 方向

社招1年以下技术类-数据

1. 数据资产体系建设：负责域外数据、位置数据、企业数据三大场景的智能化升级，设计并实现从数据采集、治理到服务化的完整链路，推动团队从传统"数据供应"模式向"智能能力输出"转型，直接支撑经营控比、采购数据验收、AI-Native 产品等核心业务场景。 2. AI-Native 架构从 0 到 1 建设：参与大模型与数据研发融合的架构设计，负责 LLM Agent 任务编排、多轮上下文管理、Human-in-the-Loop 决策机制的实现与优化，建立 Prompt 工程规范、Agent Eval 体系及 badcase 自动化排查与自愈闭环，确保技术成果在电商/AI 核心业务中快速落地。 3. 多模态数据与知识体系建设：负责文本/音频/图像/视频等多模态数据的检测、异常识别与相似度计算，设计数据质检与验收标准；同时主导知识抽取与本体建模工作，包括命名实体识别、关系抽取、实体对齐等技术落地，构建 Schema 设计与图数据库应用，打造语义资产体系。

更新于 2026-06-17杭州