快手AI云原生架构工程师-【算法引擎部】
任职要求
1. 本科及以上学历,3年及以上机器学习平台、云原生调度、AI基础设施相关研发经验; 2. 熟悉Golang/Java/Python至少一种编程语言,具备扎实的代码功底,能独立负责核心模块的设计与开发; 3. 深入理解Kubernetes核心原理,熟悉调度器、资源扩展机制、容器运行时,有…
工作职责
1. 为快手打造大模型AI云原生K8s 基础设施建设,具备万卡以上规模的CPU/GPU调度能力,支撑包括 可灵大模型、搜推广 等核心模型的训练与推理调度; 2. 支撑数据、训练、推理等全场景AI负载生命周期管理,构建训推一体的统一调度架构,落地统一的配额和算力管理机制,实现负载高效协同与资源精准管控; 3. 深耕 GPU 调度与性能优化,落地 GPU 拓扑感知、优先级、抢占、QoS 感知等调度能力,支撑万卡级大规模 AI 任务高效运行; 4. 聚焦大模型云原生基础设施建设,负责高性能网络与存储加速、多云部署与调度能力,解决大模型训推理在通信、调度上的关键挑战,持续推动云原生与 AI 技术深度融合与架构创新。
1. 参与设计与研发快手公司级机器学习平台,赋能深度学习及大模型等核心AI的模型迭代; 2. 打造业界领先的机器学习自动化架构,支持模型开发、评估、部署、监控全链路智能闭环,集成模型版本控制、元数据管理等功能,支撑模型全生命周期管理,驱动核心业务指标持续突破; 3. 构建大模型分布式推理编排系统,实现多机角色调度,支持千亿级参数模型的分布式训练与推理任务拆分及协同计算; 4. 深度参与云原生AI基础设施的技术演进,研发包括:面向AI负载的预测式弹性伸缩系统,GPU资源调度与混部,高性能存储加速引擎等方向,持续推动云原生与AI技术的深度融合创新。
1、数据资产管理平台开发与治理 构建企业级数据资产管理平台,构建数据清晰的血缘,支持高效溯源。 建立元数据管理、数据血缘追踪、质量监控与安全合规体系。 2、知识图谱构建与优化 从结构化/非结构化数据中提取实体与关系,构建行业知识图谱(如客户关系图谱)。 通过规则引擎、NLP模型持续优化图谱质量。 3、AI助理系统开发 集成大语言模型(LLM)与垂直知识库,开发智能问答、自然语言查询及自动化报表功能。 设计API/Web接口,支持业务用户通过自然语言调用数据服务(如“查询某产品的销售趋势”)。 搭建模型训练与部署框架,实现AI能力快速迭代。 4、数据安全合规与质量管理 建立数据质量指标(完整性、一致性、准确性),开发自动化检测与修复工具。 实现异常数据实时告警(如延迟、权限越权),并通过邮件/SMS/企业微信通知责任人。 5、平台性能与稳定性保障 优化Spark/Flink任务性能,提升高并发场景下的平台稳定性。 监控系统运行状态,设计容灾机制与自动化运维工具,降低故障率。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
部门介绍: 小红书的AI技术中台目前由AI技术部负责建设,通过标准化的AI技术能力提供支持公司各个业务团队(包括社区,交易,商业化,广告,agi),实现AI能力的共享和复用,提升技术资源的利用率和公司的创新迭代速度,并降低技术成本和稳定性风险。 工作职责: 作为小红书AI技术部 智能调度开发工程师: 1、负责机器学习系统资源智能调度的设计和开发,服务于各方向(搜广推核心场景、LLM场景等)的模型训练、模型评估和模型推理; 2、通过调度技术、引擎技术提升在离线资源分配和利用效率,并提升训练、推理性能,支持公司业务的快速发展。 3、通过对机器学习平台的架构升级和产品迭代,大幅提升算法同学的模型迭代效率。 4、打造具有业界一流水平的机器学习技术,通过开源共建等各类形式,提升团队与个人在业界的影响力。