小红书模型标注-AI应用评测
任职要求
1、具备3-5年搜索、大模型相关评测产运工作经验,对模型技术应用具有热情; 2、对PE、精调、RAG等大模型技术有一定的理解; 3、对于用户有比较好的理解和认知,能够从用户视角进行语料…
工作职责
1、负责大模型效果的全生命周期的评测产品工作,与算法、工程、前端产品协同; 2、效果标准的制定,基于业务场景研究及语料分析,定义特定场景下的理想效果,同时对问题下钻分析,持续挖掘和特征提炼,推动专项的解决,形成数据飞轮; 3、搭建内外部体验视角下的效果量化指标,从用户视角定义高质量优质语料和体验问题,通过科学置信的量化指标,协同算法、数据持续推动效果迭代; 4、评估体系的设计与专业评估报告输出,建立系统、科学、完善的评估体系,从用户视角出发,形成模型效果有效的驱动力。
负责评估和分析大模型在各种应用场景下的表现,与业务团队配合不断优化提升大模型应用效果。具体工作内容包括但不限于: 1. 负责大模型范式下的数据生产标注和应用场景评测平台建设。 2. 深入理解大模型在搜索、推荐、营销等场景的应用落地,参与业务评测方案的制定与评测数据集的建设。 3. 与各相关部门保持良好沟通,深度参与大模型业务应用落地,为各业务方提供评测及相关的模型分析支持。 4. 追踪大模型方向前沿进展,积极主动地学习和探索新的评测及分析的方法和技术。
1、 独立刻画出符合当前业务场景需求的安全数据体系,包括不限于常规的审核风险体系、生态风险体系等。 2、协同算法设计模型数据策略方案,涵盖专项、非专项安全场景下安全数据训练策略。 3、从模型的数据样本建设、评测体系设计、安全标注自动化升级等,能从模型底座能力上解决策略、模型在用户问题上带来的误伤,漏放。 4、有比较强的agent协同理解,同时具备一定PE技巧,推动安全在各类问题上以自动化形式解决,搭建安全PE-workflow,提升各团队工作效能。 5、能够和算法讨论出适配于不同场景下模型的安全能力(基于数据本身),需要协助算法做好问题分析、数据筛选、策略过滤、模型效果验证。
1、产品调研与策略制定:主导行业趋势、竞品动态、用户需求的深度调研,输出具备商业参考价值的调研报告。基于调研结果,搭建数据体系、理想态策略; 2、评测标准;设计量化评测指标(如准确率、召回率、一致率等)、执行流程; 3、需求深度挖掘与拆解:深入一线业务场景,主动发现 AI 可赋能的环节,将模糊的业务诉求精准拆解为可落地的技术方案; 4、 Prompt 工作流(Workflow)设计:具备数据敏感度,负责 Prompt 的编写、调试与优化。设计复杂的链式调用或 Agent 架构,确保 AI 在多步骤任务中的稳定性与输出质量。设计并落地数据验证实验,分析实验结果,为策略调整提供数据支撑,确保策略的科学性与可行性,合成有效数据; 5、端到端交付与落地:主导从方案设计、原型开发到集成上线的全过程。协同工程团队完成系统接入,并确保持续的迭代优化; 6、 收益量化与闭环:对交付后的业务指标(如 ROI、转化率、成本节约等)进行追踪与分析,证明 AI 方案的实际业务价值; 7、前沿技术探索:持续关注大模型领域(LLM)的最新进展,将新技术快速转化为内部生产力工具或策略建议。