阿里云阿里云智能-无影AI技术专家-杭州/上海
任职要求
1、5年以上互联网后台开发或Web前端开发经验,负责过复杂项目的实际经验。 2、有扎实的代码编程能力,精通任一种代码开发语言,以及优秀的架构设计能力,有良好的数据结构和算法基础。 3、对分布式系统有较深理解,熟悉常用的RPC框架、MQ系统、一致性协议等,有复杂系统架构设计经验。 4、良好的团队协作能力、沟通能力和自驱力,有强烈的工作责任心,能合理地规划工作节奏,具备良好的抗压能力。 加分项 1、有基于LLM开发过行业应用经验优先,有基于LLM开发过RAG、Function Call系统经验者优先。 2、熟悉后端研发的常用技术,如对象存储、容器、缓存、RPC、MQ、微服务等。 3、有搜索系统、推荐系统、广告系统、问答系统架构经验优先。
工作职责
1、基于多模态大模型设计无影AI的技术架构,不断优化可扩展性,帮助无影业务不断快速增长。 2、支持服务上亿用户规模的高性能、分布式、可扩展的桌面和应用虚拟化产品线架构。 3、设计并实施全流式通信的 LLM 应用架构,实现端到端最佳的性能和资源效率,不断优化高并发高吞吐在线系统的健壮性。 4、结合多模态数据存储服务和RAG检索技术、多Agent协同、Function Call等,快速开发针对行业的热门应用。
1. 负责阿里云无影AI AgentBay等产品的质量保证工作,制定和推进测试策略、测试计划和测试方法,确保产品的高质量快节奏迭代; 2. 主导中大型AI项目的质量保障,包括测试策略制定、流程优化、风险预警及质量复盘,确保关键节点交付质量; 3. 设计和开发AI Test Agent,构建AI Test保障产品质量的能力,促进测试技术向AI快速升级,持续提升测试效能 ; 4. 对测试方案进行有效的落地与执行,以确保项目进度和质量,并形成AI自动化测试用例,进一步形成服务化,提供给开发或者运维、甚至客户使用; 5. 推动架构、技术、工具和流程的改进和创新,提升整体研发和交付的效率。
团队介绍 无影是阿里巴巴发布的第一台云电脑,是在云上与客户共同定义的端。基于阿里云2.0阶段的云端一体架构,让超级数据中心直连更多的用户。一站式云控台可以提供分钟级配置,系统和应用经过流式传输和容器化架构,实现随时随地云上办公。在算力、安全、成本、敏捷、开放等方面,具有超越传统PC的优势。无影研发团队主要聚焦在云上ECS调度、容器化架构、流式传输协议、端侧系统、AI大模型等核心技术,旨在为无影产品打造超低时延和超高性能的云端一体的实时交互体验,构建面向云应用的基础平台。聚焦在无影云电脑内,无影提供了丰富的AI能力,帮助用户实现全新的高效办公体验。 职位描述 1、基于云电脑和操作系统的工作场景,深入研究AI产品规划,基于多模态大模型、知识库、UI Agent等能力,将复杂需求转化为适配AI原理且实用的产品设计。 2、与前沿研发团队紧密合作,负责AI工具和服务产品的规划、设计、以及在客户端落地和迭代、商业化。 3、与客户深度互动,了解和洞察客户痛点,以客户成功为目标开展产品设计和演进工作。 4、负责产品设计与UE设计,能够撰写高质量的需求文档等产品相关文档。
1. 制定并执行海外官网及用户增长策略,通过多维度运营手段实现用户规模与活跃度的持续提升。 2. 能有效运用用户增长和粘性指标的各类产品运营手段,不限于社群运营、用户营销、在线流量等,能有效取舍最优增长路径并达成目标结果。 3. 有效驱动技术产品核心客群及KOL的活跃,驱动用户和品牌共同成长。 4. 规划并实施技术内容矩阵建设,主导技术博客/教程/案例/视频等高价值内容的创作与传播,打造社交媒体矩阵,实现内容最大化触达。 5. 建立用户洞察与产品优化闭环,通过技术支持与咨询响应机制保障开发者体验,结合客户需求分析、市场洞察与竞对分析驱动产品迭代。 6. 负责Agent开发套件或者AI技术前沿产品运营,为产品的市场发展的用户规模、付费增长、品牌增量、及粘性指标负责。
1. 训练加速系统设计与优化 1) 主导千亿参数大模型的分布式训练架构设计,优化通信效率,突破显存与计算瓶颈。 2) 研发长序列训练加速技术,支持百万级上下文窗口训练,降低计算复杂度与内存占用。 3) 设计混合精度训练方案(FP16/FP8)与梯度累积策略,结合模型并行、流水线并行等技术,提升训练吞吐量 30% 以上。 2. 推理系统优化与工程化落地 1) 构建高性能推理引擎,基于 vLLM、TensorRT-LLM 等框架实现多模态模型的分布式推理,支持 MoE 架构与动态专家激活策略。 2) 研发模型压缩技术(量化、剪枝、LoRA),将端到端延迟降低,同时保持模型精度损失 3. 基础设施全流程优化 1) 优化训练与推理的 I/O 性能,通过异步并发、缓存预取等技术减少数据加载耗时。 2) 设计训练 - 推理一体化监控平台,实时追踪模型性能指标(如训练 loss 波动、推理 QPS),实现异常自动告警与弹性扩缩容。