阿里云阿里云智能-无影技术支持工程师-深圳
任职要求
1. 3年以上互联网、云桌面等行业大型互联网应用或集团型企业应用的服务端开发、交付、运维、售后技术相关经验,有基于云产品的大规模应用开发或运维经验; 2. 掌握所支持产品的专业技术能力,具备产品问题排查分析能力,并能协助推动产品闭环及标准化解决方案或工具;具备技术判断和解决方案的能力; 3. 良好的服务意识,善于倾听和表述,精准…
工作职责
1. 技术服务与支持 1) 积极响应客户反馈和咨询,快速定位问题,解决疑难技术问题,并进行分析和总结,提升客户满意度; 2) 高效地排查并解决产品技术服务问题,在服务过程中关注客户体验提升、有效管控客情; 3) 理解客户技术问题,基于产品知识和工具进行解决,对于产品缺陷和bug问题,升级给产研。 2. 标准化方案沉淀 1) 沉淀标准化的服务方案及通用技术方案,比如推动产品、工具、知识库的建设和改进,引导客户向合理的解决方案方向前进; 2) 编写相关产品技术类分析报告,输出知识库、服务技术文档等; 3) 负责提供研发、运维、安全等的技术培训赋能。
1. 结合业务需求,负责研发高效可靠的Agent运行时环境(Runtime)和系统服务,以支持多样化的AI创新应用场景; 2. 与团队成员紧密合作,确保AI解决方案能够无缝集成到现有系统中,并且满足性能、安全性和可扩展性的需求; 3. 根据实际需要,定制化优化AI模型,提高用户体验和服务质量; 4. 关注业界最新技术动态和发展趋势,探索新技术在产品中的应用可能性; 5. 编写高质量的技术文档,包括但不限于架构设计、API文档等。
1. 训练加速系统设计与优化 1) 主导千亿参数大模型的分布式训练架构设计,优化通信效率,突破显存与计算瓶颈。 2) 研发长序列训练加速技术,支持百万级上下文窗口训练,降低计算复杂度与内存占用。 3) 设计混合精度训练方案(FP16/FP8)与梯度累积策略,结合模型并行、流水线并行等技术,提升训练吞吐量 30% 以上。 2. 推理系统优化与工程化落地 1) 构建高性能推理引擎,基于 vLLM、TensorRT-LLM 等框架实现多模态模型的分布式推理,支持 MoE 架构与动态专家激活策略。 2) 研发模型压缩技术(量化、剪枝、LoRA),将端到端延迟降低,同时保持模型精度损失 3. 基础设施全流程优化 1) 优化训练与推理的 I/O 性能,通过异步并发、缓存预取等技术减少数据加载耗时。 2) 设计训练 - 推理一体化监控平台,实时追踪模型性能指标(如训练 loss 波动、推理 QPS),实现异常自动告警与弹性扩缩容。
1. 训练加速系统设计与优化 1) 主导千亿参数大模型的分布式训练架构设计,优化通信效率,突破显存与计算瓶颈。 2) 研发长序列训练加速技术,支持百万级上下文窗口训练,降低计算复杂度与内存占用。 3) 设计混合精度训练方案(FP16/FP8)与梯度累积策略,结合模型并行、流水线并行等技术,提升训练吞吐量 30% 以上。 2. 推理系统优化与工程化落地 1) 构建高性能推理引擎,基于 vLLM、TensorRT-LLM 等框架实现多模态模型的分布式推理,支持 MoE 架构与动态专家激活策略。 2) 研发模型压缩技术(量化、剪枝、LoRA),将端到端延迟降低,同时保持模型精度损失 3. 基础设施全流程优化 1) 优化训练与推理的 I/O 性能,通过异步并发、缓存预取等技术减少数据加载耗时。 2) 设计训练 - 推理一体化监控平台,实时追踪模型性能指标(如训练 loss 波动、推理 QPS),实现异常自动告警与弹性扩缩容。
1. 多模态大模型研发与优化 1) 设计并实现多模态大模型(图文音联合建模),解决跨模态语义对齐、动态数据处理等核心问题。 2) 优化模型生成能力,支持复杂多模态交互,实现毫秒级响应。 2. 多 Agent 系统算法设计 1) 构建多 Agent 协作框架,设计动态任务分配与博弈策略,解决资源争夺、动态联盟等复杂场景下的决策问题。 2) 结合博弈论与强化学习,开发对手建模模块,预测其他 Agent 的策略分布,优化协作效率。 3) 参与工业级 Agent 系统落地。 3. 行业场景落地与创新 1) 探索生成式 AI 与 RAG的结合,提升垂直领域的知识推理能力。 2) 跟踪前沿技术,推动技术方案的创新与落地。