腾讯元宝-大模型评测岗位
任职要求
1.对LLM技术原理有基本认知,热爱AI应用,喜欢尝鲜,如果你已经对AI应用产生了工作和生活依赖会是我们更想要的人; 2.具备强用户同理心,擅长通过场景化思维拆解复杂交互流程; 3.熟悉AI产品典型交互模式(对话式/指令式/多轮追问等); 4.有创新测试思维,能针对AI不确定性特征设计动态验证方案; 5.熟悉移动端(Android/iOS)或桌面端(…
工作职责
1.主导核心功能验证:聚焦对话、意图理解、插件能力等功能特性,设计符合AI思维范式的测试方案; 2.用户体验深度洞察:通过多维度场景还原(非常规话术、边界条件、多模态交互)挖掘潜在体验缺陷; 3.前沿测试方法探索:构建Prompt工程验证体系,设计包含价值观对齐、知识时效性等维度的AI专属测试用例; 4.质量策略创新:建立AI特性质量评估模型,推动测试左移融入需求设计、开发阶段,并负责多端(移动/桌面/Web)交互一致性验证,构建跨平台体验评估体系。
1.自动评估体系建设:设计并搭建大模型自动评估体系,覆盖通用能力及专项能力(如推理、写作、语音、VLM 等);构建评测指标体系与自动化评测流程,推动评测体系标准化、模块化、可扩展化; 2.Benchmark 研究与落地:跟踪国内外前沿大模型评测方法与 Benchmark,研究其评测维度与自动化机制;复现与改造高质量评测集,结合业务场景定制评测任务,确保评测的真实性与可复现性; 3.模型效果分析与策略优化:定期对不同版本模型进行系统评测与对比,输出详细分析报告,识别模型优势与薄弱点;针对记忆、写作、语音、多模态(VLM)等专项能力,设计细粒度评测指标与分析策略,支撑模型迭代方向; 4.用户数据分析与体验优化:持续监测与分析真实用户交互数据,挖掘模型表现的 badcase 与典型问题;与算法及产品团队协作,将用户侧问题转化为可量化的评测指标与优化方案;建立用户体验反馈与评测体系联动机制,推动模型效果持续提升与体验闭环优化; 5.跨团队协作与产品规划:与算法、工程、产品团队紧密配合,定义评测需求与指标体系,推动自动评测体系在实际业务与模型研发中的落地,形成评测 → 分析 → 优化的完整闭环。
1.自动评估体系建设:设计并搭建大模型自动评估体系,覆盖通用能力及专项能力(如推理、写作、语音、VLM 等);构建评测指标体系与自动化评测流程,推动评测体系标准化、模块化、可扩展化; 2.Benchmark 研究与落地:跟踪国内外前沿大模型评测方法与 Benchmark,研究其评测维度与自动化机制;复现与改造高质量评测集,结合业务场景定制评测任务,确保评测的真实性与可复现性; 3.模型效果分析与策略优化:定期对不同版本模型进行系统评测与对比,输出详细分析报告,识别模型优势与薄弱点;针对记忆、写作、语音、多模态(VLM)等专项能力,设计细粒度评测指标与分析策略,支撑模型迭代方向; 4.用户数据分析与体验优化:持续监测与分析真实用户交互数据,挖掘模型表现的 badcase 与典型问题;与算法及产品团队协作,将用户侧问题转化为可量化的评测指标与优化方案;建立用户体验反馈与评测体系联动机制,推动模型效果持续提升与体验闭环优化; 5.跨团队协作与产品规划:与算法、工程、产品团队紧密配合,定义评测需求与指标体系,推动自动评测体系在实际业务与模型研发中的落地,形成评测 → 分析 → 优化的完整闭环。
1.负责语音大模型post-training (SFT和RL),针对业务需求进行优化,提升模型的特定能力(如共情能力、知识准确性); 2.负责后训练数据挖掘,分析,清洗和构建,建立数据驱动优化闭环,持续提升模型能力; 3.负责业务侧相关评估方法的开发,研发能够反映产品真实体感的评测体系标准与自动化评测技术,指导后训练优化方向; 4.探索多模态大模型的前沿技术,如端到端语音对话,情感交互等,并落地到业务产品。