logo of bytedance

字节跳动自动化评测专家-大模型数据服务中心

社招全职A66397B地点:北京状态:招聘

任职要求


1、本科及以上学历,计算机科学与技术、软件工程、大数据技术、人工智能等相关专业优先;
2、具备英文文献阅读能力,发表过计算机相关国际论文优先;
3、具备优秀的沟通协调能力和团队协作意识,有相关工作经历及项目管理经验,熟悉Python程…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、调研公开评测方法,并将公开评测集集成至内部平台;
2、深度配合垂类业务探索智能高效的大模型应用效能自动化评估方案,主导开发评估体系/工具;
3、制定大模型评估在应用方向的评估标准,主导评估体系构建,主导大模型评估工作。
包括英文材料
学历+
大数据+
还有更多 •••
相关职位

logo of jd
社招测试开发岗

部门介绍:我们是市场与平台运营中心,作为京东科技的核心力量之一,在金融业务的市场拓展、平台运营与生态建设中发挥关键作用。我们以“体验与效率的价值共生”为核心理念,聚焦C端用户,推动产品体验与技术能力的深度融合,实现商业价值与用户体验的共赢。我们通过数据驱动决策、营销创新实践与平台精细化运营,持续优化关键金融场景(如现金贷、财富管理、大支付、保险等)的用户体验;依托京东金融APP、白条频道页、我的钱包页等核心入口,我们构建起连接用户与金融服务的高效桥梁。我们汇聚产品、运营、量化、研发等多职能人才,以协同创新为引擎,推动业务的可持续增长与长期价值创造。我们不仅追求短期目标的达成,更致力于构建一个用户信赖、商业健康、技术领先的金融科技生态。 欢迎加入我们,一起构建可持续的商业未来! 1. 建设一站式的大模型自动化评测平台,负责大模型评测基准建设和评测算法研究应用; 2. 为京东AI业务建设科学的评测体系,参与AI业务评测基准建设,对数据、模型和业务进行全面评估验证。系统化业务问题识别与优化机制,帮助指引算法和技术迭代方向,推动业务落地并取得效果。

更新于 2026-01-21北京
logo of amap
社招2年以上产品类-平台型

高德地图数据产品创新与AI应用探索 为亿万用户打造车道级地图数据基石,引领智能出行未来。 关键词:地图数据产品,大模型应用,AI驱动自动化生产。 与顶尖AI算法专家并肩,重塑地图数据生产模式,定义下一代地图应用。 渴望有经验、有热情的产品人才加入,共同构建AI时代关键基础设施。我们提供广阔平台与深度指导,助你快速成长。 详细描述: 一、我们是谁 我们是高德地图数据产品的核心团队,致力于打造覆盖最广、更新最快、质量最高的车道级地图数据(and more)。这些数据不仅是高德导航体验的基石,更服务于日益发展的辅助驾驶等前沿领域,为数亿用户的每一次安全、高效出行提供精准保障。我们是阿里巴巴集团在“人地关系”这一核心基础设施上的重要建设者。 二、在阿里体系中,高德的作用 高德已经构成了今天阿里巴巴在无线互联网时代,未来走向物联网时代,非常重要的一个基础设施,就是‘人地关系’。它是一个地理位置级的企业级服务。在广义的数字经济时代,这一服务是很多场景都需要的。 它是服务消费者非常重要的一种用户服务,但在用户服务的背后,更重要的是对所有需要地理位置服务的企业所提供的第三方服务,企业级服务。今天的高德支撑着中国大半的第三方应用软件,当它需要地图定位的时候,背后调用的就是高德服务。 我们所做的地图数据产品,正是支撑这一宏大愿景的关键底层能力。 三、我们在做什么 - 聚焦AI驱动的数据革新 我们正处于地图数据生产模式变革的前沿,核心目标是建设业界领先的高自动化数据生产体系。今年,我们将倾力投入: 1、地图数据产品规划与设计: 深入理解用户与行业需求(如辅助驾驶等),规划并设计创新的地图数据产品功能与服务。 2、AI与大模型赋能地图生产: 与顶尖算法团队紧密协作,探索大模型等AI技术在地图数据更新、自动化/半自动化样本构建、数据规律挖掘中的颠覆性应用。 3、产品全生命周期推动: 从概念到落地,与技术团队深度合作,完成模型训练迭代、效果评测、工程架构优化,并协调资源推动产品上线与运营。 4、智能数据生产体系建设: 持续优化数据更新流程,利用AI技术提升数据生产的效率、质量和覆盖范围,打造核心竞争力。 5、市场洞察与体验优化: 紧密跟踪产品市场反馈、行业动态及AI技术发展,持续优化用户体验和产品性能,挖掘AI在地图场景的落地潜力。

更新于 2026-01-07北京
logo of bytedance
实习A17677

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:抖音集团内容质量与数据服务平台(DOUYIN GROUP CONTENT QUALITY AND DATA SERVICE,简称CQC)是负责抖音集团今日头条、抖音、西瓜等产品内容安全与质量工作的团队,在各产品运营增长方面开展支持工作,为产品线提供数据服务的基础支持。平台下设内容质量中心、数据中心及运营支持中心,在全国10余个城市有业务分布。 1、负责规模化运营外包专家团队,制定和优化人工评估流程和标准,对专家评估结果进行质量把控,进行数据分析,撰写评估报告,为模型优化提供可靠依据; 2、搭建自动评估和标注体系,编写PE和Workflow程序,实现评估数据的规模生成与筛选,协同产品研发团队完成自动评估系统搭建与优化; 3、制作自动评估的评测集,从多样性、时效性、真实性、区分度等维度,保障评测集的质量,辅助研发快速迭代。

更新于 2024-12-10北京
logo of quark
社招3年以上技术类-质量保证

1. 负责智能互联多模态算法测试,熟悉算法工程全链路评测,可以独立设计如图像处理算法(如目标检测、图像识别、OCR等)的评测方案,数据集,评测工程等,确保算法精度与性能符合需求; 2. 建设通用的基于大模型场景下的模型评估体系、评测框架及基础评测能力的建设,包括评测集完备性,合理性建设,评测结果智能化判定,能够基于业务需求设计评测方案,开展多维度模型评估,输出专业评测报告; 3. 追踪大模型方向前沿进展,积极主动地学习和探索新的评测及分析的方法和技术。主导项目全链路质量保障和风险识别工作,搭建质量技术保障体系、制定质量保障规范、推进测试工作执行; 4. 协同项目中多角色、多合作团队形成积极有效的沟通和互动,驱动问题解决,保障交付质量。主动创新,通过技术手段解决质量保障工作中的复杂技术问题,提升测试效能、加深质量工作技术积累。

更新于 2026-01-23杭州