阿里云阿里云智能-百炼系统架构技术专家-北京/杭州
任职要求
1. 计算机及相关专业硕士及以上学历,计算机、软件工程、系统架构等相关专业背景。 2. 5 年以上大型平台系统、DevInfra 架构或 AI 平台服务端开发经验,有大模型应用和系统经验者优先。 3. 深刻理解分布式系统设计原理,熟悉微服务、服务网格、异步编排、服务容灾等高可用系统架构设计。 4. 熟练掌握主流 DevOps/DevInfra 工具链,具备构建自动化研发流程的能力…
工作职责
1. 负责大模型应用和系统整体架构设计与演进,打造具备弹性调度能力、服务稳定、低延迟响应的全链路应用和系统。 2. 主导平台的 DevInfra 能力建设,覆盖CI/CD、灰度发布、可观测性、异常诊断与系统治理等关键模块,提升研发交付效率。 3. 优化业务、平台、应用的架构设计,持续提升平台能力与技术领先性。
1. 结合LLM技术,设计和优化RAG全链路的基础架构,提升系统的吞吐能力和响应速度。 2. 构建高性能,可扩展的分布式文件处理和索引构建系统,承载海量文档的知识库的索引和检索需求。 3. 规划和优化检索集群,通过合理的分片,资源分配等策略降低延迟提高吞吐,针对业务场景进行服务优化。 4. 建立完善的系统监控,日志分析和trace平台,能快速定位和解决系统问题。
1、模型服务API: 开发实现端到端的模型服务,涵盖LLM/VL/embedding/rerank等大语言模型, 也包含diffusion model方向的生图生视频的模型服务,构建高效的服务框架提升模型接入效率, 优化端到端服务性能,确保稳定性; 2、百炼大模型开发平台上各领域模型服务架构设计迭代、性能优化以及核心服务开发; 3、百炼大模型开发平台模型微调、模型评测技术架构设计、算法开发以及对应业务能力建设。
1、模型服务API: 开发实现端到端的模型服务,涵盖LLM/VL/embedding/rerank等大语言模型, 也包含diffusion model方向的生图生视频的模型服务,构建高效的服务框架提升模型接入效率, 优化端到端服务性能,确保稳定性; 2、百炼大模型开发平台上各领域模型服务架构设计迭代、性能优化以及核心服务开发; 3、百炼大模型开发平台模型微调、模型评测技术架构设计、算法开发以及对应业务能力建设。
1. 核心系统研发 (1)设计与优化大模型推理服务框架与分布式缓存系统。 (2)支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。 (3)开发工具链与服务化能力,包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化 (1)优化推理服务框架的性能,包括引擎适配、生命周期管理和资源调度。 (2)深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。 (3)支持高性能通信协议、容错与负载均衡机制。 (4)提升系统可观测性,完善监控、告警与故障恢复体系。 3. 引擎与应用集成 (1)深度集成推理引擎、缓存系统和存储系统,优化访问模式与架构设计。 (2)满足大规模、多模态推理场景下的高吞吐与低延迟需求。