logo of kuaishou

快手评测工具开发工程师(大模型方向)

社招全职3-5年D13923地点:北京状态:招聘

任职要求


1、本科及以上学历;
2、具备3年及以上,测试开发经验,有相关数据分析&数据平台开发经验也欢迎投递;
3、具备优秀数据分析能力,能用 NumPy/Pandas 对大量csv数据做清洗、聚合、统计;熟练Matplotlib,可快速出可视化、为业务决策提供洞察;
4、具备 GitLab-CI…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、评测数据统计与可视化 :负责评测得分数据的清洗、统计与可视化、计算整体及分维度平均分、胜率、p-value、置信区间等指标,并按阈值自动筛选 Bad/Good case,支撑效果分析;搭建可视化Dashboard,支持可视化洞察驱动模型迭代,如模型分数成长趋势;
2、提效 / 测试工具开发:根据评测流程痛点,敏捷交付脚本或小型web服务,如:prompt管理工具(生成、筛选、版本管理)、失分样本检索、模型指标统计平台化&自动生成简要报表;持续优化评测CI/CD,缩短“提测 → 评测 → 反馈 →优化”闭环。
包括英文材料
学历+
数据分析+
NumPy+
Pandas+
还有更多 •••
相关职位

logo of bytedance
社招A155735

1、负责公司LLM大模型方向质量保障工作,具体包括但不限于LLM模型服务、LLM插件、LLM试用评估平台、LLM解决方案平台、LLM安全平台、稳定性、模型部署、训练、微调等方向; 2、构建大模型相关质量体系,参与变更管控、自动化测试、稳定性建设等质效专项; 3、基于工程和算法团队现有质效问题给出合理质效解决方案,推动落地提高交付质效; 4、能及时关注和学习,并探索新的大模型相关质效解决方案。

更新于 2025-03-07杭州
logo of bytedance
社招RTGF1

1、负责公司LLM大模型方向质量保障工作,具体包括但不限于LLM模型服务、LLM插件、LLM试用评估平台、LLM解决方案平台、LLM安全平台、稳定性、模型部署、训练、微调等方向; 2、构建大模型相关质量体系,参与变更管控、自动化测试、稳定性建设等质效专项; 3、基于工程和算法团队现有质效问题给出合理质效解决方案,推动落地提高交付质效; 4、及时关注和学习,并探索新的大模型相关质效解决方案。

更新于 2019-12-30北京
logo of didi
社招2年以上技术

1. 构建适合大模型产品的质量保障体系,包含不仅限于客户端、服务端、WEB端、模型评测等质量保障,制定和推进相关专项技术方案落地实施; 2. 快速掌握系统架构与业务逻辑,审核测试方案与测试设计并给出指导意见; 3. 参与制定测试相关流程、策略、方法和工具等创新,努力提升测试的质量和效率; 4. 沉淀通用测试解决方案,负责关键专项建设,开发相关工具平台;

更新于 2025-04-16北京
logo of alibaba
实习淘天集团2026

1、主导基于大模型的AI Agent全生命周期研发,包括通用型及垂直领域AI Agent的架构设计、模型训练与评测; 2、运用SFT、RL等Post-training训练方法,提升大模型在自主规划(Planning)、多步推理、RAG增强生成、工具调用、数据问答、文案生成等方面的能力; 3、跟踪LLM与Agent领域的国际前沿技术动态,推动技术创新在业务场景中的落地应用,重点突破复杂推理、数据洞察、AI搜索、文案创作、图像连续编辑等方向的应用创新; 4、持续优化Agent算法与系统架构,构建端到端的智能体评测体系,开发自动化评估工具与多维评价指标,提升Agent系统性能与效率,打造业内领先的AI Agent技术方案。

更新于 2025-05-07杭州