米哈游LLM Pretrain Data研究员

校招全职程序&技术类地点：上海状态：招聘

扫码手机上打开

1、精通大规模数据处理框架，如Apache Spark或Ray。
2、扎实的Python编程能力，熟悉分布式计算概念。
3、高度重视数据质量，能够分析并处理不同代码和…

微信扫码，1秒登录

1、针对多种数据源（包括GitHub代码库、网页爬取的code以及通用文本数据）设计并实现代码及通用数据清洗pipeline。
2、开发并迭代基于LLM的数据过滤策略，以提高预训练语料库的数据质量。
3、开发、维护并优化数据pipeline，确保其在大规模场景下的性能和可靠性。

难度：

包括英文材料

Apache+

Spark+

Ray+

还有更多 •••