阿里云阿里云智能-异构计算产品专家-杭州/北京
任职要求
1. 有AI模型、算法、平台、基础设施的软件研发经验,有大模型相关经验等优先; 2. 对AI、HPC的某个行业、领域有深入理解,熟悉AI算法或GPU芯片底层者优先; 3. 具备产品规划、设计能力,有集群或基础设施类软硬件产品的相关工作经验; 4. 能综合多业务的不同场…
工作职责
1、负责产品的设计、开发、市场推广和落地。深入理解客户的需求和行业技术发展的趋势,通过竞分、用户调研等方法,完成产品定义及设计; 2、负责产品架构的构建和把关,评估和选择合适的技术方案,并驱动来自不同团队的人员,在预算内按时开发并发布产品; 3、制定产品的上市计划,制作产品的发布和推广材料,并组织产品的上市推广; 4、支持产品定价,市场规划,营销和售前支持,以及渠道建设等其它产品相关工作。
业务支撑 • 参与构建阿里云弹性计算(通用计算CPU、异构计算GPU)的资源管理、售卖、资源调度、资源供给服务,构建全球计算力的基础设施,持续提升资源的利用率; • 参与构建阿里云统一的资源调度池化服务,持续提升资源的利用率和资源的交付效率; • 通过数据分析、结合大模型AI等手段,持续推动产品的演进优化,提升资源调度效率; • 持续演进平台和系统模型,提升整体经营平台的技术先进性; 技术方案设计 • 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果; • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等; 技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等; • 针对关键技术难题和业务模块,能够独立设计良好的系统架构和方案,具备良好的架构设计、性能和可扩展性; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; 稳定性和性能优化 • 解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统稳定安全可靠地运行; • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。
1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作,覆盖机器学习系统多个子方向领域的工作,包括:数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等,建设支持AI全链路的研发平台与AI垂类应用开发平台,实现算法研发效率、和资源利用率的最大化,灵活可扩展的支持不同领域的个性化应用开发需求,为蚂蚁大模型研发链路及应用研发探索新的研发模式; 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性。
1. 针对整机柜服务器产品进行全面的计算、互联、监控等能力的全面赋能和开发; 2. 寻找适合于整机柜异构服务器产品的业务产品并进行对应的昆仑组件设计和开发,包含性能评测分析、容器镜像等 3. 针对整机柜硬件架构及业务落地场景,构建故障异常case并能设计故障诊断方案; 4. 负责跟踪及研究主流GPU架构设计技术,参与下一代AI Infra的设计; 5. 根据业务画像,构建有竞争力的异构硬件和系统全链路的量化分析,形成数据决策数据库;有效推动异构服务器产品的规划和落地。
1. 作为技术负责人,制定并推动多模态交互系统的端云整体工程架构演进路线,覆盖端侧推理、客户端集成、云端服务及协同策略。 2. 主导端侧AI推理框架的设计与优化,包括模型加载、算子加速、内存管理、功耗控制、异构计算(CPU/GPU/NPU)调度等,确保大模型在资源受限设备上的高效运行。 3. 负责Android客户端核心交互模块的架构设计与开发,包括多模态输入采集、实时通信、状态管理、离在线切换、异常恢复等关键能力。 4. 设计高并发、低延迟、可扩展的云端推理服务架构,支持语音识别、大模型生成、多模态融合等服务的弹性部署与动态扩缩容。 5. 构建端云协同机制,实现任务卸载、上下文同步、模型热更新、A/B测试等能力,提升系统整体鲁棒性与迭代效率。 6. 带领应用工程团队,负责关键技术方案评审、核心模块编码、性能压测、线上稳定性保障及团队技术能力建设。 7. 与算法、产品、芯片、测试及客户解决方案团队紧密协作,推动系统从原型验证到规模化商用落地。