阿里云阿里云智能-Java应用开发高级工程师-云通信-杭州
任职要求
1. 3年以上互联网大规模业务或分布高并发系统,特别对所在领域业务系统的高可用和稳定性建设有实战经验者优先。 2. 软件工程理论基础扎实,熟悉分布式服务理论基础。有软件分层概念,熟悉设计模式及原则, 有良好的编程习惯。 3. java基础扎实,熟悉jvm内存管理、GC算法,熟悉JVM参数调优,熟悉java集合类、多线程。 4. 精通java web开发。掌握spring(springboot、spring mvc)、myb…
工作职责
1. 负责云通信国际融合产品核心产品功能开发与版本迭代,保证产品能力快速迭代和高质量交付 2. 负责云通信融合产品与能力开放平台基础框架开发,兼顾传统接口式编程范式以及大模型编程范式,保证系统鲁棒性的同时考虑业务扩展性 3. 负责大语言模型应用层开发与落地,包括但不限于生成ChatFlow,智能对话生成,知识问答、数据分析等场景 4. 通过行业会议、技术媒体、学术研究、友商交流等方式,收集领域内的新技术信息,包括但不限于技术原理、技术优劣势、应用场景等 5. 分析竞对产品的核心技术指标和发展方向,通过内外部渠道,了解并洞悉客户需求,并凝练形成对应的技术洞察、选型以及协助产品经理构建产品发展规划 6. 指导和培养团队成员,包括评审设计文档和代码 7. 参与平台整体系统的架构设计与演进规划,结合业务实际情况综合考虑系统的安全性、稳定性、可扩展性、性能和使用体验,对系统持续优化,确保能够满足持续发展的业务形态与规模对基础平台能力的需求
工作职责: 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
1. 主导现有物流系统AI化升级的整体后端架构设计,结合业务场景制定技术选型方案(如微服务/云原生架构),规划大模型集成、Agent调度的分层架构,保障系统扩展性与兼容性。 有成功落地经验、个人作品者优先; 2. 设计企业知识库的分布式架构,基于Python/Java技术栈搭建多源数据接入层、向量检索层与服务封装层,解决高并发下的数据同步与检索性能问题,输出架构设计文档。 3. 负责AI Agent核心架构落地,设计多智能体协作框架(如基于事件驱动/服务调用模式),定义Agent通信协议与状态管理机制,规避系统耦合风险,保障架构稳定性。 4. 主导架构评审与技术难点攻关,定期评估AI化架构适配性,输出架构演进方案,协调跨团队资源推进落地,确保系统AI化升级符合业务长期发展需求。