蚂蚁金服蚂蚁集团-智能化大模型应用专家/高级专家-北京/杭州
任职要求
1、计算机、人工智能、数学等相关专业背景,硕士6-10年的工作经验,其他条件符合可适当放宽; 2、熟悉AI领域的主流算法框架,深度学习基础扎实,有较好数学基础; 3、在计算机视觉、CV领域有丰富经验,在大模型、尤其多模态大模型应用领域有丰富经验,有通过MLLM模型解决实际业务问题经验;熟练掌握模型的继续预训练、后训练(SFT、RL)工作,有较强的解决实际问题能力,不脱离一线工作; 4、扎实的Python语言基础,熟练掌握常用算法框架。有较强工程能力,具备从需求到上线应用的完整解决问题能力; 5、学习和思考能力强,能够洞察问题本质,有技术热情,良好的沟通能力和团队协同能力,有一定的抗压能力; 6、有风险领域的算法经验优先考虑,有大模型相关领域会议论文优先考虑,具备Java语言能力优先考虑,具有系统稳定性相关经验优先考虑。
工作职责
1、负责支付宝数字化风险防控体系能力的建设,包括数字内容、电商商品、短视频、直播互动等领域,应用大模型(不限于LLM、MLLM、AI Agent等)进行风险防控的能力建设; 2、负责支付宝数字化风险领域面向智能领域的全面升级,设计算法解决方案,解决疑难点问题,规划中长期发展路线,推动算法的长期迭代; 3、根据业务场景制定有效的模型训练方案,解决算法领域相关重/难点问题,协同团队达成相关模型的性能指标,创造业务价值和技术价值; 4、不断探索前沿智能技术,进行重点难点技术攻关工作。
● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。
1、结合安全业务发展战略,制定AI技术架构或者战略规划,推动业务或者产品能力创新; 2、推动千卡级大模型集群训练与推理体系建设,解决训练或者推理过程中技术瓶颈,为业务场景大模型应用提升效果; 3、有良好的团队管理能力和决策能力,激励团队成员的工作积极性和创造力,促进跨团队协同,营造技术创新氛围; 4、跟踪AI领域的前沿技术和研究成果,应用到实际项目,推动安全AI技术发展。
构建面向智能计算时代的下一代AI质量保障体系,驱动专有云智算、大模型等核心AI产品的卓越质量交付,同时通过AI技术重塑软件测试范式,打造智能化、前瞻性的测试基础设施: 1、 负责专有云智算平台(含GPU资源调度、高性能存储/网络组件)、大模型服务产品的全链路质量体系建设 2、同时能够将AI技术深度融入软件测试全流程,通过AI技术驱动测试效率提升、质量优化和流程变革 3、主导AI测试工具研发、智能化测试体系建设,并为团队提供AI技术在测试领域的前沿解决方案。
1. 核心系统研发 (1)设计与优化大模型推理服务框架与分布式缓存系统。 (2)支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。 (3)开发工具链与服务化能力,包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化 (1)优化推理服务框架的性能,包括引擎适配、生命周期管理和资源调度。 (2)深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。 (3)支持高性能通信协议、容错与负载均衡机制。 (4)提升系统可观测性,完善监控、告警与故障恢复体系。 3. 引擎与应用集成 (1)深度集成推理引擎、缓存系统和存储系统,优化访问模式与架构设计。 (2)满足大规模、多模态推理场景下的高吞吐与低延迟需求。