阿里云阿里云智能-百炼模型服务运行时技术专家/高级专家-杭州/北京
任职要求
1. 必备技能 (1)扎实的 C++/Python 编程功底,具备模块化设计能力。 (2)大模型推理框架(vLLM/SGLang等)经验,理解模型推理原理。 (3)分布式系统开发经验,熟悉缓存、微服务与容器化技术。 (4)Linux、C…
工作职责
1. 核心系统研发 (1)设计与优化大模型推理服务框架与分布式缓存系统。 (2)支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。 (3)开发工具链与服务化能力,包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化 (1)优化推理服务框架的性能,包括引擎适配、生命周期管理和资源调度。 (2)深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。 (3)支持高性能通信协议、容错与负载均衡机制。 (4)提升系统可观测性,完善监控、告警与故障恢复体系。 3. 引擎与应用集成 (1)深度集成推理引擎、缓存系统和存储系统,优化访问模式与架构设计。 (2)满足大规模、多模态推理场景下的高吞吐与低延迟需求。

1. 核心系统研发 (1)设计与优化大模型推理服务框架与分布式缓存系统。 (2)支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。 (3)开发工具链与服务化能力,包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化 (1)优化推理服务框架的性能,包括引擎适配、生命周期管理和资源调度。 (2)深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。 (3)支持高性能通信协议、容错与负载均衡机制。 (4)提升系统可观测性,完善监控、告警与故障恢复体系。 3. 引擎与应用集成 (1)深度集成推理引擎、缓存系统和存储系统,优化访问模式与架构设计。 (2)满足大规模、多模态推理场景下的高吞吐与低延迟需求。
1. 负责百炼Agent应用层infra对接阿里云的建设,包括AgentScope运行时以及工具沙箱和阿里云云资源和云服务的对接、Agent部署、和算法适配。 2. 负责百炼Agent在阿里云和企业场景效果的调优。 3. 从阿里云数据源开始,为Agent服务的Data Connector体系的设计和建设。 4. 形成系统的Agent评测体系,沉淀为Reward Model. 5. 负责Agent RL/Tuning相关的算法和工程链路、数据反馈链路的构建。 6. 负责更加通用的Agent调优机制的设计,融入百炼Agent智能体创建流程。 7. 负责阿里云或者企业场景中相关平台算法feature的落地。
1. 负责百炼Agent应用层infra对接阿里云的建设,包括AgentScope运行时以及工具沙箱和阿里云云资源和云服务的对接、Agent部署、和算法适配。 2. 负责百炼Agent在阿里云和企业场景效果的调优。 3. 从阿里云数据源开始,为Agent服务的Data Connector体系的设计和建设。 4. 形成系统的Agent评测体系,沉淀为Reward Model. 5. 负责Agent RL/Tuning相关的算法和工程链路、数据反馈链路的构建。 6. 负责更加通用的Agent调优机制的设计,融入百炼Agent智能体创建流程。 7. 负责阿里云或者企业场景中相关平台算法feature的落地。