小红书模型标注-AI应用评测

社招全职3-5年模型标注2025-12-05地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1、具备3-5年搜索、大模型相关评测产运工作经验，对模型技术应用具有热情；
2、对PE、精调、RAG等大模型技术有一定的理解；
3、对于用户有比较好的理解和认知，能够从用户视角进行语料…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责大模型效果的全生命周期的评测产品工作，与算法、工程、前端产品协同；
2、效果标准的制定，基于业务场景研究及语料分析，定义特定场景下的理想效果，同时对问题下钻分析，持续挖掘和特征提炼，推动专项的解决，形成数据飞轮；
3、搭建内外部体验视角下的效果量化指标，从用户视角定义高质量优质语料和体验问题，通过科学置信的量化指标，协同算法、数据持续推动效果迭代；
4、评估体系的设计与专业评估报告输出，建立系统、科学、完善的评估体系，从用户视角出发，形成模型效果有效的驱动力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

RAG+

相关职位

AI应用评测系统工程师

社招3年以上核心本地商业-业

负责评估和分析大模型在各种应用场景下的表现，与业务团队配合不断优化提升大模型应用效果。具体工作内容包括但不限于： 1. 负责大模型范式下的数据生产标注和应用场景评测平台建设。 2. 深入理解大模型在搜索、推荐、营销等场景的应用落地，参与业务评测方案的制定与评测数据集的建设。 3. 与各相关部门保持良好沟通，深度参与大模型业务应用落地，为各业务方提供评测及相关的模型分析支持。 4. 追踪大模型方向前沿进展，积极主动地学习和探索新的评测及分析的方法和技术。

更新于 2025-06-03北京

模型标注-AI安全模型数据运营

社招3-5年模型标注

1、独立刻画出符合当前业务场景需求的安全数据体系，包括不限于常规的审核风险体系、生态风险体系等。 2、协同算法设计模型数据策略方案，涵盖专项、非专项安全场景下安全数据训练策略。 3、从模型的数据样本建设、评测体系设计、安全标注自动化升级等，能从模型底座能力上解决策略、模型在用户问题上带来的误伤，漏放。 4、有比较强的agent协同理解，同时具备一定PE技巧，推动安全在各类问题上以自动化形式解决，搭建安全PE-workflow，提升各团队工作效能。 5、能够和算法讨论出适配于不同场景下模型的安全能力（基于数据本身），需要协助算法做好问题分析、数据筛选、策略过滤、模型效果验证。

更新于 2025-11-05北京|上海|武汉

模型标注-PE策略运营

社招3-5年模型标注

1、产品调研与策略制定：主导行业趋势、竞品动态、用户需求的深度调研，输出具备商业参考价值的调研报告。基于调研结果，搭建数据体系、理想态策略； 2、评测标准；设计量化评测指标（如准确率、召回率、一致率等）、执行流程； 3、需求深度挖掘与拆解：深入一线业务场景，主动发现 AI 可赋能的环节，将模糊的业务诉求精准拆解为可落地的技术方案； 4、 Prompt 工作流（Workflow）设计：具备数据敏感度，负责 Prompt 的编写、调试与优化。设计复杂的链式调用或 Agent 架构，确保 AI 在多步骤任务中的稳定性与输出质量。设计并落地数据验证实验，分析实验结果，为策略调整提供数据支撑，确保策略的科学性与可行性，合成有效数据； 5、端到端交付与落地：主导从方案设计、原型开发到集成上线的全过程。协同工程团队完成系统接入，并确保持续的迭代优化； 6、收益量化与闭环：对交付后的业务指标（如 ROI、转化率、成本节约等）进行追踪与分析，证明 AI 方案的实际业务价值； 7、前沿技术探索：持续关注大模型领域（LLM）的最新进展，将新技术快速转化为内部生产力工具或策略建议。

更新于 2026-01-30北京|上海|武汉

大模型算法评测工程师

社招1年以上质量管理类

1、与产品及模型团队紧密协作，设计完善大模型与 AI 应用评测标准； 2、分析模型表现，定位性能瓶颈或安全风险，向团队输出优化建议； 3、开发维护自动评测工具、可视化面板等监控机制； 4、协助数据收集与标注，确保评测数据的质量和可信度； 5、规范众包标注、人员管理及质量控制流程。

上海|北京