字节跳动大模型自动化评测专家(大语言模型方向)-DMC
任职要求
1、大学本科及以上学历,计算机科学与技术、软件工程、大数据技术、人工智能、智能科学与技术等专业; 2、精通Python程序开发,有良好的编码风格及创新优化意识,具备较强的程序开发能力; 3、有大模型训练或模型评估经验,熟悉大模型评测方…
工作职责
1、制定AI模型评估在代码方向的评估标准,主导评估体系构建,主导AI模型评估工作; 2、探索智能、高效的模型自动化评估方案,主导开发评估工具; 3、调研公开评测方法,并将公开评测集集成至内部平台。
1. 负责智能互联多模态算法测试,熟悉算法工程全链路评测,可以独立设计如图像处理算法(如目标检测、图像识别、OCR等)的评测方案,数据集,评测工程等,确保算法精度与性能符合需求; 2. 建设通用的基于大模型场景下的模型评估体系、评测框架及基础评测能力的建设,包括评测集完备性,合理性建设,评测结果智能化判定,能够基于业务需求设计评测方案,开展多维度模型评估,输出专业评测报告; 3. 追踪大模型方向前沿进展,积极主动地学习和探索新的评测及分析的方法和技术。主导项目全链路质量保障和风险识别工作,搭建质量技术保障体系、制定质量保障规范、推进测试工作执行; 4. 协同项目中多角色、多合作团队形成积极有效的沟通和互动,驱动问题解决,保障交付质量。主动创新,通过技术手段解决质量保障工作中的复杂技术问题,提升测试效能、加深质量工作技术积累。
1. 建设一站式的大模型自动化评测平台,负责大模型评测基准建设和评测算法研究应用。 2. 为蚂蚁AI业务建设科学的评测体系,参与AI业务评测基准建设,对数据、模型和业务进行全面评估验证。系统化业务问题识别与优化机制,帮助指引算法和技术迭代方向,推动业务落地并取得效果。
1、调研公开评测方法,并将公开评测集集成至内部平台; 2、深度配合垂类业务探索智能高效的大模型应用效能自动化评估方案,主导开发评估体系/工具; 3、制定大模型评估在应用方向的评估标准,主导评估体系构建,主导大模型评估工作。
部门介绍:我们是市场与平台运营中心,作为京东科技的核心力量之一,在金融业务的市场拓展、平台运营与生态建设中发挥关键作用。我们以“体验与效率的价值共生”为核心理念,聚焦C端用户,推动产品体验与技术能力的深度融合,实现商业价值与用户体验的共赢。我们通过数据驱动决策、营销创新实践与平台精细化运营,持续优化关键金融场景(如现金贷、财富管理、大支付、保险等)的用户体验;依托京东金融APP、白条频道页、我的钱包页等核心入口,我们构建起连接用户与金融服务的高效桥梁。我们汇聚产品、运营、量化、研发等多职能人才,以协同创新为引擎,推动业务的可持续增长与长期价值创造。我们不仅追求短期目标的达成,更致力于构建一个用户信赖、商业健康、技术领先的金融科技生态。 欢迎加入我们,一起构建可持续的商业未来! 1. 建设一站式的大模型自动化评测平台,负责大模型评测基准建设和评测算法研究应用; 2. 为京东AI业务建设科学的评测体系,参与AI业务评测基准建设,对数据、模型和业务进行全面评估验证。系统化业务问题识别与优化机制,帮助指引算法和技术迭代方向,推动业务落地并取得效果。