快手评测工具开发工程师（大模型方向）

社招全职3-5年D139232025-12-28地点：北京状态：招聘

扫码手机上打开

任职要求

1、本科及以上学历；
2、具备3年及以上，测试开发经验，有相关数据分析&数据平台开发经验也欢迎投递；
3、具备优秀数据分析能力，能用 NumPy/Pandas 对大量csv数据做清洗、聚合、统计；熟练Matplotlib，可快速出可视化、为业务决策提供洞察；
4、具备 GitLab-CI…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、评测数据统计与可视化 ：负责评测得分数据的清洗、统计与可视化、计算整体及分维度平均分、胜率、p-value、置信区间等指标，并按阈值自动筛选 Bad/Good case，支撑效果分析；搭建可视化Dashboard，支持可视化洞察驱动模型迭代，如模型分数成长趋势；
2、提效 / 测试工具开发：根据评测流程痛点，敏捷交付脚本或小型web服务，如：prompt管理工具（生成、筛选、版本管理）、失分样本检索、模型指标统计平台化&自动生成简要报表；持续优化评测CI/CD，缩短“提测 → 评测 → 反馈 →优化”闭环。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

数据分析+

NumPy+

Pandas+

还有更多 •••

登录查看完整学习资料

相关职位

高级测试开发工程师（大模型方向）-抖音搜索

社招A155735

1、负责公司LLM大模型方向质量保障工作，具体包括但不限于LLM模型服务、LLM插件、LLM试用评估平台、LLM解决方案平台、LLM安全平台、稳定性、模型部署、训练、微调等方向； 2、构建大模型相关质量体系，参与变更管控、自动化测试、稳定性建设等质效专项； 3、基于工程和算法团队现有质效问题给出合理质效解决方案，推动落地提高交付质效； 4、能及时关注和学习，并探索新的大模型相关质效解决方案。

更新于 2025-03-07杭州

高级测试开发工程师（大模型方向）-抖音搜索

社招RTGF1

1、负责公司LLM大模型方向质量保障工作，具体包括但不限于LLM模型服务、LLM插件、LLM试用评估平台、LLM解决方案平台、LLM安全平台、稳定性、模型部署、训练、微调等方向； 2、构建大模型相关质量体系，参与变更管控、自动化测试、稳定性建设等质效专项； 3、基于工程和算法团队现有质效问题给出合理质效解决方案，推动落地提高交付质效； 4、及时关注和学习，并探索新的大模型相关质效解决方案。

更新于 2019-12-30北京

测试工程师-大模型方向(J250327013)

社招2年以上技术

1. 构建适合大模型产品的质量保障体系，包含不仅限于客户端、服务端、WEB端、模型评测等质量保障，制定和推进相关专项技术方案落地实施； 2. 快速掌握系统架构与业务逻辑，审核测试方案与测试设计并给出指导意见； 3. 参与制定测试相关流程、策略、方法和工具等创新，努力提升测试的质量和效率； 4. 沉淀通用测试解决方案，负责关键专项建设，开发相关工具平台；

更新于 2025-04-16北京

AI Agent算法工程师（大模型方向）

实习淘天集团2026

1、主导基于大模型的AI Agent全生命周期研发，包括通用型及垂直领域AI Agent的架构设计、模型训练与评测； 2、运用SFT、RL等Post-training训练方法，提升大模型在自主规划（Planning）、多步推理、RAG增强生成、工具调用、数据问答、文案生成等方面的能力； 3、跟踪LLM与Agent领域的国际前沿技术动态，推动技术创新在业务场景中的落地应用，重点突破复杂推理、数据洞察、AI搜索、文案创作、图像连续编辑等方向的应用创新； 4、持续优化Agent算法与系统架构，构建端到端的智能体评测体系，开发自动化评估工具与多维评价指标，提升Agent系统性能与效率，打造业内领先的AI Agent技术方案。

更新于 2025-05-07杭州