蚂蚁金服蚂蚁集团-大模型评测工程师-平台架构
任职要求
基本要求: 1.计算机科学相关领域,扎实的java编程基础、中间件等相关技术; 2.了解机器学习、深度学习、大模型基础知识,在其中一个领域有深入理解; 3.具备领域建模能力,有过独立架构或者承担过核心系统系分的经验,能够独挡一面; 4.较强的表达和沟通能力,较强的学习能力,对技术有热情,工作认真、严谨、敬业、有责任心。…
工作职责
1.负责大模型基座或智能体评测方法、评测Benchmark、评测平台的建设; 2.使用统计、机器学习技术来分析模型输出,识别模式和潜在问题,编写技术报告,总结评测结果和提出改进建议; 3.跟踪最新的AI评测技术和工具,并将其集成到我们的评测流程中; 4.与算法专家和工程师团队合作,了解模型的功能和限制;紧跟业务,确保评测结果能够指导产品迭代和优化。
1.负责以大模型为代表的AI技术能力的建设和优化,打造业界领先的AI技术系统。主要职责包括AI系统结构设计,大模型训练数据构建,大模型能力评测,大模型推理效果和效率优化等; 2.紧密跟踪、探索大模型方向前沿技术,依托丰富且体系化的业务生态,实践大模型等AI技术创新应用与落地。
1、设计和开发大模型的评测指标和算法,确保大模型性能的科学量化和准确评测,并构建自动化评测平台,实现评测流程的标准化和高效化,撰写评测报告和技术文档; 2、负责大模型的性能评测与分析,识别大模型在不同任务和场景下的优劣势,并与大模型研发团队紧密合作,提供评测反馈,推动大模型优化和迭代; 3、研究和实现先进的大模型评测方法,提升大模型的综合性能。跟踪行业前沿技术和评测方法,持续改进评测体系,保持技术领先。
1、负责大模型相关的评测和标注平台研发,协同产品、QA、算法做好模型评测相关的工作; 2、参与模型评测方案的制定和评测数据集建设,搭建自动化的评测链路; 3、建设高效率、易使用的平台,不断优化系统架构,支撑业务规模增长,保障业务稳定。
1、参与大模型数据平台架构设计与开发,为大模型数据资产建设管理提供平台支持,支持数据资产上架、知识生产、检索、训练应用等;数据用途上包含预训练数据、微调数据、评测数据等,数据模态上包含文本、图片、视频、音频等各类模态数据。 2、参与高可用、可扩展、分布式大模型评测平台架构设计与开发,支持多模型、多方法、多评测集的评测任务执行、评测结果分析,优化评测框架,提升评测效率,支持实现大模型快速迭代的评测要求。 3、在通用BenchMark基础上构建业务领域Benchmark,围绕“语料供给-模型迭代-模型评测”的链路不断优化链路,提升生产效率。 4、持续的创新和优化能力,提升产品整体质量,改善用户体验。