飞猪旅行飞猪-LLM大模型评测产品专家-AI Agent

社招全职5年以上2026-01-30地点：杭州状态：招聘

扫码手机上打开

任职要求

1、2年以上LLM/策略/评测/数据产品相关经验；有Agent相关产品和评测经验加分。
2、较强数据分析与结构化思维：能从评测与线上数据中定位关键瓶颈、给出可执行改进路径。
3、用户同理心强，愿意高频…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、从用户视角定义产品体验，并细化到对模型效果的理想态定义和评测标准制定。
2、设计统一的评估框架与指标体系，产出稳定可信的评测结论；基于结论进行归因分析，提出可落地的模型能力提升与应用体验优化策略（含数据生产与产品策略），并推动跨团队闭环落地。
3、持续跟进业界评测研究与方法论，结合真实业务场景迭代内部评测方案，探索更贴近真实用户体验的评测方法。
4、持续跟踪业内产品与技术动态，建立对标分析机制，输出趋势判断与策略建议，辅助业务方向制定决策。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

AI agent+

还有更多 •••

登录查看完整学习资料

相关职位

LLM大模型评测产品经理实习生-AI创新业务

实习A241565

ByteIntern：面向2027届毕业生（2026年9月-2027年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：字节跳动内部创新业务团队，专注研究新技术赛道相关领域产品，落地AI智能化创新。 1、从用户视角定义产品体验，并细化到对模型效果的理想态定义和评测标准制定； 2、负责构建大模型在真实应用场景下的效果评估体系，产出稳定可信的评测结论；能够从用户反馈、模型行为观察、研究侧目标中提炼评估方向，并提出可落地的模型能力提升与应用体验优化策略，推动模型和产品迭代； 3、与研发、数据科学、用户研究等团队紧密协作，基于线上观测、实验结果和用户访谈，识别模型缺陷与改进机会，并给出可执行的优化方向与评估策略； 4、负责推动跨团队协作闭环，统筹评估目标、资源优先级与落地节奏，确保关键模型行为、风险点、用户体验问题能够被快速验证、追踪与优化； 5、持续跟进业界评测研究与方法论，结合真实业务场景迭代方案，探索更反映真实用户体验和价值的评测方法。

更新于 2026-03-26北京

晓天衡宇-大模型评测工程师-LLM

社招2年以上

1. 负责大模型的高质量的数据构造及模型评测工作，主要聚焦在通用模型能力（创作、指令遵循、角色体验）等各垂域（医疗、法律、金融等）数据任务，与算法团队密切合作，理解算法需求，提供满足算法研发需求的数据； 2. 设计和实现各领域标注方向AI训练流程，并不断优化迭代，高效完成标注和内容生产项目； 3. 统筹各领域核心知识点分类框架、回答思维模式、推理问答、权威教材教研资料、前沿科研论文专著等关键要素。依据多元数据集设计需求与应用场景，为数据集标准环节制定详实、完备且极具可操作性的标准。定期对数据集开展阶段性质量检测，持续迭代体系化标注标准，助力打造行业标杆级数据集； 4. 构建并维护一套完善的各领域AI数据内容质量管理体系，积极推动组织流程及交付流程优化，全面把控内容质量并对结果负责，并不断进行优化迭代； 5. 开展LLM及各垂域大模型及应用的评测建设，能够从各领域专业层面设计专业评测方案、开展专业的评测服务； 6.承担本方向数据处理、数据清洗、数据蒸馏、数据合成等多样数据工程工作。

更新于 2026-06-18杭州

乌鸫科技-大模型评测工程师-LLM

社招2年以上

更新于 2026-03-31杭州

乌鸫科技-大模型数据标注评测专家-LLM/科学

社招2年以上

1. 负责大模型的高质量的数据构造及模型评测工作，主要在LLM、科学（数学/化学/物理）等各垂域数据任务，与算法团队密切合作，理解算法需求，提供满足算法研发需求的数据； 2. 设计和实现各领域标注方向AI训练流程，并不断优化迭代，高效完成标注和内容生产项目； 3. 统筹各领域核心知识点分类框架、回答思维模式、推理问答、权威教材教研资料、前沿科研论文专著等关键要素。依据多元数据集设计需求与应用场景，为数据集标准环节制定详实、完备且极具可操作性的标准；定期对数据集开展阶段性质量检测，持续迭代体系化标注标准，助力打造行业标杆级数据集； 4. 构建并维护一套完善的各领域AI数据内容质量管理体系，全面把控内容质量并对结果负责，并不断进行优化迭代； 5. 积极推动组织流程及交付流程优化，对接数据标注供应商。负责组织培训、试标、通过持续培训和反馈提升供应商标注质量与效率； 6.开展LLM/科学/各垂域大模型及应用的评测建设，能够从各领域专业层面设计专业评测方案、开展专业的评测服务。

更新于 2026-03-30杭州