小红书高性能计算资深工程师(AI分布式训练方向)
任职要求
1、熟练掌握Linux环境下的C/C++、Python语言; 2、具备扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯; 3、能…
工作职责
大模型AI Infrastructure团队专注于大语言模型领域的前沿技术研究和落地,提供高性能、高可靠、可扩展的机器学习系统、丰富的异构计算资源和极致的端到端的机器学习服务体验,为公司提供核心技术能力和服务。 1、负责机器学习框架的研究与开发,服务于公司各个产品; 2、高效部署,优化NLP/多模态大模型核心业务模型;
1.主导大模型的算法研究、训练调优及工程化落地,提升模型性能和效率 2.探索大模型压缩、分布式训练、推理加速等技术(如量化、MoE、FlashAttention等) 3.结合业务场景(如对话系统、内容生成、知识推理)设计模型优化方案,解决数据稀疏性、幻觉抑制等挑战 4.跟踪学术界与工业界最新进展,推动技术成果转化 5.主导技术方案输出,协同工程团队实现高性能服务部署
1、负责容器服务平台在AI领域的架构设计演进以及商业化产品开发,研究AI技术和场景跟云原生技术的结合; 2、负责容器服务平台针对AI业务的高性能、稳定性优化;结合机器学习、云原生、公有云架构,提升资源利用率; 3、提炼用户需求和打磨产品,调研国内外产品,让产品和技术具备业界领先的差异化竞争力; 4、关注云原生在AI方向的发展,构建AI云原生容器服务平台产品化能力。
1、负责容器服务平台在AI领域的架构设计演进以及商业化产品开发,研究AI技术和场景跟云原生技术的结合; 2、负责容器服务平台针对AI业务的高性能、稳定性优化;结合机器学习、云原生、公有云架构,提升资源利用率; 3、提炼用户需求和打磨产品,调研国内外产品,让产品和技术具备业界领先的差异化竞争力; 4、关注云原生在AI方向的发展,构建AI云原生容器服务平台产品化能力。
钉钉正在全面拥抱多模态AI,正在致力于将视觉大模型、边缘智能与实时视频分析深度融合,赋能智能零售、智慧工厂、智能交通等多个行业。我们拥有强大的工程化能力和创新研发氛围,期待志同道合的技术精英加入,共同推动视觉AI落地千行百业。 我们正在寻找在视觉AI领域具备真正工程化落地经验的技术人才,你将参与公司核心视觉AI系统的研发与优化,负责从算法设计、模型训练到高性能部署、大规模流式处理的全链路技术实现。具体职责包括: 1. 视觉大模型与算法开发 ○ 负责视觉大模型的后训练(Post-training)优化,包括微调、蒸馏、量化、剪枝等,提升模型在实际场景中的泛化能力与效率。 ○ 开发端侧视觉大模型,针对边缘设备进行轻量化设计与部署。 ○ 设计并实现传统CV算法(如目标检测、跟踪、姿态估计、图像增强等)与深度学习模型的融合方案。 ○ 构建视觉嵌入生成与特征提取模型,支持跨模态检索、相似性匹配等应用。 ○ 能根据实时性、性能、成本等多维约束,设计合理的算法组合与技术路线,实现最优落地效果。 ○ 在行业专家的指导下完成高质量的数据清洗和标注,建立多行业多场景的视觉AI评估框架 2. 高性能推理部署与优化 ○ 基于不同算法特性,选择并实施高并发、大吞吐的推理部署方案,熟练使用以下技术栈: ■ 推理框架:Triton Inference Server、ONNX Runtime、TensorRT ■ 部署平台:KServe + Triton / KServe + vLLM ○ 实现模型的动态批处理、自适应推理、低延迟响应,优化端到端服务性能。 ○ 负责模型格式转换、算子优化、硬件适配(GPU/TPU/NPU)及性能调优。 3. 分布式视频流处理系统构建是加分项 ○ 构建高可用、可扩展的分布式视频流处理 pipeline,支持多路视频流的实时接入与处理。 ○ 基于 Kafka + Flink 实现视频帧的流式消费、分发与状态管理。 ○ 完成视频数据的实时AI推理、结果聚合、元数据落盘,并与下游系统无缝集成。 ○ 保障系统在高负载下的稳定性、容错性与可监控性。 4. 跨团队协作与技术沉淀 ○ 与产品、业务、后端及硬件团队紧密协作,推动AI能力在真实业务场景中的落地。 ○ 输出技术文档、最佳实践,参与构建公司级AI工程化平台与工具链。