夸克千问C端事业群-大模型评测数据运营-北京/杭州
任职要求
1、本科或以上学历,2年以上LLM策略/评测/数据产品相关经验,有agent相关产品和评测经验、AI数据分析和市场研究经验加分; 2、较强数据分析与结构化总结思维,能从评测与线上数据、竞品数据中定位关键瓶颈,给出可执行改进路径; 3、有用户…
工作职责
1、建立并优化大模型评测体系和方法,设计科学的评估框架与指标体系,定义大模型效果的理想态和制定及优化评测标准,产出稳定可信的专业评测分析结论,提出可落地的模型能力提升与产品体验优化策略,并推动跨团队闭环落地; 2、高效承接大模型文本/图片/视频/语音方向的大模型评测业务需求,统筹多个评测项目的管理工作,独立承担评测策略及标准制定及优化、项目管理、流程优化、质量把控、报告撰写等工作;能够基于业务数据,进行模型效果评估、分析、问题定位及反馈; 3、持续跟进业界评测研究与方法论,结合实际业务场景迭代内部评测方案,探索更贴近真实用户体验的评测方法,与产品算法团队紧密合作,制定有效的数据策略,推动产品目标达成和大模型效果提升; 4、持续跟踪业务产品与技术动态,建立对标分析机制,输出趋势判断与策略建议,辅助产品方向制定决策。
1. 负责智能互联多模态算法测试,熟悉算法工程全链路评测,可以独立设计如图像处理算法(如目标检测、图像识别、OCR等)的评测方案,数据集,评测工程等,确保算法精度与性能符合需求; 2. 建设通用的基于大模型场景下的模型评估体系、评测框架及基础评测能力的建设,包括评测集完备性,合理性建设,评测结果智能化判定,能够基于业务需求设计评测方案,开展多维度模型评估,输出专业评测报告; 3. 追踪大模型方向前沿进展,积极主动地学习和探索新的评测及分析的方法和技术。主导项目全链路质量保障和风险识别工作,搭建质量技术保障体系、制定质量保障规范、推进测试工作执行; 4. 协同项目中多角色、多合作团队形成积极有效的沟通和互动,驱动问题解决,保障交付质量。主动创新,通过技术手段解决质量保障工作中的复杂技术问题,提升测试效能、加深质量工作技术积累。
1. 负责智能互联多模态算法测试,熟悉算法工程全链路评测,可以独立设计如图像处理算法(如目标检测、图像识别、OCR等)的评测方案,数据集,评测工程等,确保算法精度与性能符合需求; 2. 建设通用的基于大模型场景下的模型评估体系、评测框架及基础评测能力的建设,包括评测集完备性,合理性建设,评测结果智能化判定,能够基于业务需求设计评测方案,开展多维度模型评估,输出专业评测报告; 3. 追踪大模型方向前沿进展,积极主动地学习和探索新的评测及分析的方法和技术。主导项目全链路质量保障和风险识别工作,搭建质量技术保障体系、制定质量保障规范、推进测试工作执行; 4. 协同项目中多角色、多合作团队形成积极有效的沟通和互动,驱动问题解决,保障交付质量。主动创新,通过技术手段解决质量保障工作中的复杂技术问题,提升测试效能、加深质量工作技术积累。
1、搭建图片数据策略流程和产出数据策略方案,搭建图片数据建设Pipeline 2、系统化生产单图生图、图生视频等数据,通过多种途径生产满足要求的训练数据。 3、构建自动化+人工的数据采集链路,构建多模态数据标注体系 4、建设模型迭代评测的标准和链路,辅助算法进行模型迭代