夸克千问C端事业群-大模型评测数据运营-北京/杭州
任职要求
1、本科或以上学历,2年以上LLM策略/评测/数据产品相关经验,有agent相关产品和评测经验、AI数据分析和市场研究经验加分; 2、较强数据分析与结构化总结思维,能从评测与线上数据、竞品数据中定位关键瓶颈,给出可执行改进路径; 3、有用户…
工作职责
1、建立并优化大模型评测体系和方法,设计科学的评估框架与指标体系,定义大模型效果的理想态和制定及优化评测标准,产出稳定可信的专业评测分析结论,提出可落地的模型能力提升与产品体验优化策略,并推动跨团队闭环落地; 2、高效承接大模型文本/图片/视频/语音方向的大模型评测业务需求,统筹多个评测项目的管理工作,独立承担评测策略及标准制定及优化、项目管理、流程优化、质量把控、报告撰写等工作;能够基于业务数据,进行模型效果评估、分析、问题定位及反馈; 3、持续跟进业界评测研究与方法论,结合实际业务场景迭代内部评测方案,探索更贴近真实用户体验的评测方法,与产品算法团队紧密合作,制定有效的数据策略,推动产品目标达成和大模型效果提升; 4、持续跟踪业务产品与技术动态,建立对标分析机制,输出趋势判断与策略建议,辅助产品方向制定决策。
1. 负责智能互联多模态算法测试,熟悉算法工程全链路评测,可以独立设计如图像处理算法(如目标检测、图像识别、OCR等)的评测方案,数据集,评测工程等,确保算法精度与性能符合需求; 2. 建设通用的基于大模型场景下的模型评估体系、评测框架及基础评测能力的建设,包括评测集完备性,合理性建设,评测结果智能化判定,能够基于业务需求设计评测方案,开展多维度模型评估,输出专业评测报告; 3. 追踪大模型方向前沿进展,积极主动地学习和探索新的评测及分析的方法和技术。主导项目全链路质量保障和风险识别工作,搭建质量技术保障体系、制定质量保障规范、推进测试工作执行; 4. 协同项目中多角色、多合作团队形成积极有效的沟通和互动,驱动问题解决,保障交付质量。主动创新,通过技术手段解决质量保障工作中的复杂技术问题,提升测试效能、加深质量工作技术积累。
1、搭建图片数据策略流程和产出数据策略方案,搭建图片数据建设Pipeline 2、系统化生产单图生图、图生视频等数据,通过多种途径生产满足要求的训练数据。 3、构建自动化+人工的数据采集链路,构建多模态数据标注体系 4、建设模型迭代评测的标准和链路,辅助算法进行模型迭代
1、负责语音大模型数据构建,设计各技术方案下各阶段数据方案与策略,建设专业、敏捷的流程&标准,管理高效高质的数据生产Pipeline,有效提升技术预研/业务落地效果; 2、负责端到端语音大模型评测体系建设,设计模型优化敏感、业务场景适配的评测方案与流程,建设并管理科学、敏捷的评测Pipeline,为模型效果提升提供有价值的优化方向与反馈; 3、推动跨团队合作,理解上游需求并统筹下游人力,负责项目资源的协调与组织,与算法/产品进行良好沟通,确保项目团队协同工作,推动语音方案在业务场景的落地。
1. 负责CV内容安全防控体系搭建,建立CV内容审核能力、大模型安全评测能力、大模型可控生成能力,保证业务安全及大模型应用安全,利用视觉大模型解决业务安全风控需求; 2. 视觉大模型:参与视觉大模型风控的数据、算法、策略等完整体系建设,负责CV分类all-in-one、图像特征检索、开集OCR、视觉理解等算法研发,在业务场景打造行业一流的视觉大模型安全风控体系; 3、岗位特色:应对全风险问题,快速提升综合算法能力,与大模型时代发展同步,深耕大模型安全领域,持续积累安全领域业务经验; 4、业务支持:保障夸克AI、通义千问ToC、UC浏览器、书旗小说、超级汇川等产品的内容安全及大模型安全; 5、部门特色:作为综合型安全中台,包含法务、GA、公关、数安、内安、商安等职能,协同共建为业务提供全面安全保障。