logo of xiaohongshu

小红书多模态数据引擎研发专家

社招全职3年以上数据引擎地点:北京 | 上海 | 杭州状态:招聘

任职要求


1. 本科及以上学历,3年以上AI&Data引擎/数据/存储研发经验
2. 加分项:熟悉大模型技术和产品生态,如Data-Juicer/Ray/Daft/Pytorch/RAG等
3. 熟悉Python/Java,具备优秀的设计与编码能力,针对业务需求与问题,可快速设计与实现解决方案
4. 具备良好的沟通和团队协作能力,做事主动积极负责任,有技术热情和激情面对挑战

工作职责


1.负责模型预训练、微调、部署及推理过程中的数据准备、模型和数据加速、数据集存储及管理,为大模型提供高效稳定的多模态数据预处理能力,构建高质量的AI数据迭代链路。
2.探索AI Native的多模数据存储格式,支持AI数据高效存储、读取和分析,提升数据的使用价值。
3.跟进LLM、多模态大模型的前沿发展,探索数据如何更好驱动模型迭代。
包括英文材料
学历+
大模型+
Ray+
PyTorch+
RAG+
Python+
Java+
相关职位

logo of bytedance
社招A174521A

1、打造业界领先的大数据+AI云平台产品,满足大模型时代的数据处理及应用需求; 2、负责云平台的架构设计和研发,包括数据处理、资源调度、模型/算子管理、模型部署服务等; 3、基于K8S体系构建大规模任务处理系统,并负责GPU、CPU等多种异构资源的编排调度优化; 4、负责云平台与字节跳动火山引擎基础设施如计算、存储、AI模型等上下游生态的集成。

更新于 2024-11-13
logo of aliyun
社招3年以上云智能集团

1. MLOps平台开发打造一站式大模型开发平台,负责主流开源和闭源模型的训练、评测、蒸馏、压缩、部署全链路工具开发 ● 参与模型各种后训练如微调、蒸馏、强化学习的产品化,以及vLLM/sglang/自研推理引擎的优化,提供有竞争力的推理性能 ● 负责各种MLOps工具链开发,如AI资产管理、实验管理、血缘跟踪、评测对比等,帮助用户串联AI开发全流程,提升模型开发效率 ● 负责多模态数据自动标注和挖掘功能的开发,为智驾和具身智能客户提供新一代的数据工程解决方案 2. 企业级Agent开发平台建设 ● 建设具备全模态能力的agent开发平台,帮助客户构建RAG、chatbot、data agent、design agent、research agent等各种AI agent应用 ● 提供白盒化开发模式,建设全链路的可观测、可调试和监控能力,帮助用户构建同时具备高精度和高性价比的agent应用 ● 针对企业客户对安全隐私的强需求,构建全方位的安全防护能力,包括不限于模型安全护栏、工具沙箱、细粒度权限管控等 ● 与阿里云大数据、智能搜索等业务产品合作,建设阿里云agent工具生态

更新于 2025-09-10
logo of bytedance
社招2年以上A38455

1、负责多模态数据湖内核与存储引擎的研发工作,在Data+AI场景提供行业数据湖解决方案; 2、负责与上层数据处理产品深度联动,建设多模数据湖生态; 3、结合字节跳动、国内头部大模型客户场景,支持多模态数据管理需求; 4、与开源社区深度合作,提升开源影响力。

更新于 2025-05-19
logo of bytedance
社招A115907

1、支持各类业务的数据需求,为豆包、剪映、抖音等多个业务提供完整的数据解决方案,深度参与大模型业务迭代,助力AI的快速演进; 2、打造多模态数据获取和数据处理引擎,构建较大规模、较低成本、智能化的数据工程能力,建设全网多模态数据知识库,面向大模型训练提供端到端数据寻源、获取、理解与加工的解决方案,助力AI业务快速发展; 3、面向大模型训练与优化的全流程数据需求,构建多模态智能标注与数据增强系统,支持自动化标注、AI辅助标注、专家级人工校验,打造高精度、高一致性的数据生产流水线,为大模型持续进化提供优质数据燃料; 4、打造数据智能产品市场和专业平台服务,为业务提供全域数据的舆情应用和商情线索解决方案,降低业务获取信息的成本,提高对全网实时数据应用的效果,打造一个人人可用的企业级智能信息助理。

更新于 2023-10-16