小红书AI平台高级研发工程师(大模型专项)
任职要求
1、本科及以上学历,计算机、人工智能等相关专业优先; 2、优秀的代码能力,精通Java/Golang/Python其中至少两门语言,了解C/C++; 3、深入理解操作系统、算法、数据库、数据结构等计算机基础知识; 4、熟悉云原生技术栈,包括K8s、Docker、微服务架构等,有k8s或kubeflow的实战经验; 5、熟悉至少一种深度学习训练或推理框架(TensorFlow/PyTorch/Onnx/TensorRT)的原理及使用方法; 6、有机器学习平台产品化经验,深度参与过MLOps工具链建设,对AI基础设施、模型服务化有理解和实践。 7、熟悉AI训练部署全流程,具备相关应用场景的开发经验,了解AI领域技术发展趋势; 8、责任心强、合作沟通顺畅,具备良好的团队协作能力。 加分项: 1、有AI大模型应用落地经验及AI平台相关开发经验 2、有分布式系统设计经验和大规模在线服务架构建设相关经验
工作职责
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性
1、负责大模型相关的评测和标注平台研发,协同产品、QA、算法做好模型评测相关的工作; 2、参与模型评测方案的制定和评测数据集建设,搭建自动化的评测链路; 3、建设高效率、易使用的平台,不断优化系统架构,支撑业务规模增长,保障业务稳定。
职位描述: 1、参与大模型应用开发平台的设计、开发及应用工作,能主动发现技术⽀撑业务存在的瓶颈,支持公司内部大模型应用快速落地; 2、参与大模型应用开发平台技术架构解决方案,并参与技术研发和效果优化等工作,推动产品持续增长; 3、与前端、产品及运营团队密切沟通,按需求迭代更新并维护平台功能; 4、保障大模型应用系统的稳定、高效运行,帮助业务优化性能和改善系统稳定性; 5、加分项:支持国际版建设,包括多语言建设、多时区、海外场景等内容的设计开发工作
岗位职责: 该职位通过大模型训练、Agent、RAG、N2SQL、NLP、语音处理等技术创新和突破,构建Agent通用平台、大模型训练平台等工具产品,同时支持对话机器人等垂直应用及智能产品的建设。欢迎敢于接受挑战的候选人加入我们,一起赋能企业客户。我们的研究方向包括但不限于: 1、通用大模型、推理大模型预训练、微调、强化对齐等技术的持续研究创新; 2、多语言大模型、领域大模型的训练技术研究与落地; 3、AI数据清洗、加工、合成、自动标注技术研究与落地; 4、文本机器人、语音机器人、质检机器人等客服域技术的研发与落地; 5、多Agent、RAG、N2SQL、自主决策等技术的研究与落地; 6、入呼大模型机器人、外呼大模型机器人研发经验;熟悉VAD, ASR, TTS等语音相关技术; 以上方向擅长其中1个即可