小红书多模态数据引擎研发专家
社招全职3年以上数据引擎地点:北京 | 上海 | 杭州状态:招聘
任职要求
1. 本科及以上学历,3年以上AI&Data引擎/数据/存储研发经验 2. 加分项:熟悉大模型技术和产品生态,如Data-Juicer/Ray/Daft/Pytorch/RAG等 3…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1.负责模型预训练、微调、部署及推理过程中的数据准备、模型和数据加速、数据集存储及管理,为大模型提供高效稳定的多模态数据预处理能力,构建高质量的AI数据迭代链路。 2.探索AI Native的多模数据存储格式,支持AI数据高效存储、读取和分析,提升数据的使用价值。 3.跟进LLM、多模态大模型的前沿发展,探索数据如何更好驱动模型迭代。
包括英文材料
学历+
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
Ray+
https://github.com/ray-project/ray
Ray consists of a core distributed runtime and a set of AI Libraries for accelerating ML workloads.
https://www.youtube.com/watch?v=FhXfEXUUQp0
In this video, I'll teach you everything you need to know about Apache Ray!
https://www.youtube.com/watch?v=fMiAyj2kgac
Using powerful machine learning algorithms is easy using Ray.io and Python.
https://www.youtube.com/watch?v=q_aTbb7XeL4
Parallel and Distributed computing sounds scary until you try this fantastic Python library.
还有更多 •••
相关职位
社招3-5年数据引擎
1. 协同AI平台与算法团队,面向AI大模型训练和多样化数据处理场景,研发云原生文件系统和缓存加速系统,为AI业务提供极致的存储解决方案并推动在业务侧落地。 2. 应对小红书超大规模多模态应用挑战,攻克单集群百亿级元信息、Tbps级高吞吐等行业技术难题,保障AI业务的安全、稳定和高效运行。 3. 持续进行系统架构优化与技术迭代,结合AI负载特征,实现数据智能调度、数据预取和缓存管理,不断优化I/O路径,有效提升GPU等算力资源利用率。
更新于 2026-01-12北京|上海|杭州
社招5年以上云智能集团
负责AIPlatform数据工程平台研发,包括: 1.参与PB级大规模非结构化数据管理系统的设计和实现。 2.参与面向多模态的CPU+GPU高性能分布式计算引擎的设计和实现。 3.参与高质量的数据处理算子研发,包括CPU+GPU算子的调优、迭代。 4.参与产品的开发和维护,完成从需求到设计、开发和上线等整个项目周期内的工作。
更新于 2026-01-27北京|杭州
社招5年以上云智能集团
负责AIPlatform数据工程平台研发,包括: 1.参与PB级大规模非结构化数据管理系统的设计和实现。 2.参与面向多模态的CPU+GPU高性能分布式计算引擎的设计和实现。 3.参与高质量的数据处理算子研发,包括CPU+GPU算子的调优、迭代。 4.参与产品的开发和维护,完成从需求到设计、开发和上线等整个项目周期内的工作。
更新于 2026-03-23北京|杭州