logo of xiaohongshu

小红书模型标注-AI应用评测

社招全职3-5年模型标注地点:北京 | 上海状态:招聘

任职要求


1、具备3-5年搜索、大模型相关评测产运工作经验,对模型技术应用具有热情;
2、对PE、精调、RAG大模型技术有一定的理解;
3、对于用户有比较好的理解和认知,能够从用户视角进行语料…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责大模型效果的全生命周期的评测产品工作,与算法、工程、前端产品协同;
2、效果标准的制定,基于业务场景研究及语料分析,定义特定场景下的理想效果,同时对问题下钻分析,持续挖掘和特征提炼,推动专项的解决,形成数据飞轮;
3、搭建内外部体验视角下的效果量化指标,从用户视角定义高质量优质语料和体验问题,通过科学置信的量化指标,协同算法、数据持续推动效果迭代;
4、评估体系的设计与专业评估报告输出,建立系统、科学、完善的评估体系,从用户视角出发,形成模型效果有效的驱动力。
包括英文材料
大模型+
RAG+
相关职位

logo of antgroup
社招技术类-算法

大模型数据认知方向,负责设计和开发先进的算法,解决大模型数据生产中的关键问题,包括但不限于数据知识体系生成、语料自动分类、智能数据标注、权威评测集建设以及基于评测的语料质量评估与合成。你的工作将直接影响蚂蚁大模型的训练效果和性能表现。工作将涉及以下1个或多个方向 ● 数据知识体系生成: 研究基于LLM的自动知识图谱生成技术,设计并实现自动化算法,构建高效、可扩展的大模型数据知识体系。 ● 语料自动分类: 基于数据知识体系,研究和开发语料分类算法,指导大模型数据的拓展方向; ● 权威评测集建设: 研究业界现有评测集的缺陷,构建标准化、多样化的权威评测集,用于评估大模型的性能; 与跨职能团队合作,确保评测集覆盖全面且具有代表性。 ● 语料质量评估与合成: 建立大模型训练的数据驱动体系,开发语料质量评估算法,识别低质量或噪声数据。 研究数据驱动的语料合成技术,基于模型的评测效果,针对性合成能够改进模型效果的训练语料,提升模型迭代效率 ● 智能标注链路研发: 基于大模型数据的标注需求,研发辅助打标算法; 设计构建 AI辅助的标注质量检验与标注提效的算法链路,提升人工标注的质检效率与标注质量 ● 技术创新与优化: 持续跟踪学术界和工业界的最新研究成果,探索前沿技术在大模型数据中的应用。 针对实际业务需求,提出创新性的解决方案并快速落地。

更新于 2025-06-18杭州
logo of antgroup
社招5年以上技术类-算法

我们是致力于推动智能化服务技术革新的创新团队,专注于为全行业提供高效、智能的解决方案。我们的业务涵盖智能客服、智能培训、智能质检等多个领域。 我们团队正在建设“评测数字员工”,旨在通过标准化、智能化的评测手段,推动AI智能服务的全面升级,并打造行业领先和有代表性的评测体系与benchmark。 如果你对AI、NLP、数据挖掘、评测等领域充满热情,并希望在一个充满挑战与机遇的环境中快速成长,那么加入我们,一起定义未来智能化服务的新标准! 【职位描述】 1. 评测体系设计:参与设计并优化智能化服务(包括智能客服、智能培训、智能质检等)的评测体系,涵盖对话质量、操作质量、培训效果、拟人化、用户满意等核心指标。 2. 评测开发与优化: ○ 研发并优化基于LLM-as-Judge的评测能力,包括但不限于对话生成质量评估、意图识别准确率、多轮对话一致性等。 ○ 探索agent在复杂任务中的性能评测方法,如任务规划、SOP遵循、RAG、多模态交互等。 3. Red-team:针对agent系统的弱点进行攻击,找到系统潜在的风险,防患于未然。 4. Benchmark构建:构建并维护智能化服务领域的代表性benchmark,确保评测标准的科学性与可扩展性。 5. 数据驱动决策:通过数据分析与挖掘,识别智能化服务系统的性能瓶颈,并提出改进方案。 6. 跨业务协作:与多个智能体研发团队、产品团队紧密合作,确保评测体系与业务需求的高度匹配,推动产品的持续优化。 7. 技术前沿探索:跟踪智能化服务领域的最新技术动态,探索并落地创新评测方法。

更新于 2025-09-18北京
logo of antgroup
社招3年以上风险管理-风险策

大模型数据认知方向,负责设计和开发先进的算法,解决大模型数据生产中的关键问题,包括但不限于数据知识体系生成、语料自动分类、智能数据标注、权威评测集建设以及基于评测的语料质量评估与合成。你的工作将直接影响蚂蚁大模型的训练效果和性能表现。工作将涉及以下1个或多个方向 1、数据知识体系生成: 研究基于LLM的自动知识图谱生成技术,设计并实现自动化算法,构建高效、可扩展的大模型数据知识体系。 2、语料自动分类: 基于数据知识体系,研究和开发语料分类算法,指导大模型数据的拓展方向; 3、权威评测集建设: 研究业界现有评测集的缺陷,构建标准化、多样化的权威评测集,用于评估大模型的性能; 与跨职能团队合作,确保评测集覆盖全面且具有代表性。 4、语料质量评估与合成: 建立大模型训练的数据驱动体系,开发语料质量评估算法,识别低质量或噪声数据。 研究数据驱动的语料合成技术,基于模型的评测效果,针对性合成能够改进模型效果的训练语料,提升模型迭代效率 5、智能标注链路研发: 基于大模型数据的标注需求,研发辅助打标算法; 设计构建 AI辅助的标注质量检验与标注提效的算法链路,提升人工标注的质检效率与标注质量 6、技术创新与优化: 持续跟踪学术界和工业界的最新研究成果,探索前沿技术在大模型数据中的应用。 针对实际业务需求,提出创新性的解决方案并快速落地。

更新于 2025-09-09杭州
logo of antgroup
社招5年以上运营-产品运营

1、根据AI医疗行业发展方向,结合公司整体规划明确业务目标和策略,对大模型相关产品的医学专业度负责; 2、通过对医生及患者需求的洞察,制定并完善的医学数据生产、标注体系、模型评测标准,从专业角度推动模型和产品能力的持续优化; 3、推动和头部医生及医院专科的AI合作,提升专科垂直领域的能力纵深,形成良性且持续的行业影响力。

更新于 2025-09-15杭州