腾讯元宝-大模型评测岗位

社招全职CSIG技术2025-06-09地点：深圳状态：招聘

扫码手机上打开

任职要求

1.对LLM技术原理有基本认知，热爱AI应用，喜欢尝鲜，如果你已经对AI应用产生了工作和生活依赖会是我们更想要的人；
2.具备强用户同理心，擅长通过场景化思维拆解复杂交互流程；
3.熟悉AI产品典型交互模式（对话式/指令式/多轮追问等）；
4.有创新测试思维，能针对AI不确定性特征设计动态验证方案；
5.熟悉移动端（Android/iOS）或桌面端（…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.主导核心功能验证：聚焦对话、意图理解、插件能力等功能特性，设计符合AI思维范式的测试方案；
2.用户体验深度洞察：通过多维度场景还原（非常规话术、边界条件、多模态交互）挖掘潜在体验缺陷；
3.前沿测试方法探索：构建Prompt工程验证体系，设计包含价值观对齐、知识时效性等维度的AI专属测试用例；
4.质量策略创新：建立AI特性质量评估模型，推动测试左移融入需求设计、开发阶段，并负责多端（移动/桌面/Web）交互一致性验证，构建跨平台体验评估体系。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

Android+

iOS+

Windows+

还有更多 •••

登录查看完整学习资料

相关职位

元宝-大模型评测产品经理

社招1年以上元宝产品

1.自动评估体系建设：设计并搭建大模型自动评估体系，覆盖通用能力及专项能力（如推理、写作、语音、VLM 等）；构建评测指标体系与自动化评测流程，推动评测体系标准化、模块化、可扩展化； 2.Benchmark 研究与落地：跟踪国内外前沿大模型评测方法与 Benchmark，研究其评测维度与自动化机制；复现与改造高质量评测集，结合业务场景定制评测任务，确保评测的真实性与可复现性； 3.模型效果分析与策略优化：定期对不同版本模型进行系统评测与对比，输出详细分析报告，识别模型优势与薄弱点；针对记忆、写作、语音、多模态（VLM）等专项能力，设计细粒度评测指标与分析策略，支撑模型迭代方向； 4.用户数据分析与体验优化：持续监测与分析真实用户交互数据，挖掘模型表现的 badcase 与典型问题；与算法及产品团队协作，将用户侧问题转化为可量化的评测指标与优化方案；建立用户体验反馈与评测体系联动机制，推动模型效果持续提升与体验闭环优化； 5.跨团队协作与产品规划：与算法、工程、产品团队紧密配合，定义评测需求与指标体系，推动自动评测体系在实际业务与模型研发中的落地，形成评测 → 分析 → 优化的完整闭环。

更新于 2026-02-03深圳

元宝-大模型评测产品经理

社招1年以上元宝产品

更新于 2025-11-08北京

元宝-语音大模型应用算法工程师需求

社招2年以上元宝技术

1.负责语音大模型post-training (SFT和RL)，针对业务需求进行优化，提升模型的特定能力（如共情能力、知识准确性）； 2.负责后训练数据挖掘，分析，清洗和构建，建立数据驱动优化闭环，持续提升模型能力； 3.负责业务侧相关评估方法的开发，研发能够反映产品真实体感的评测体系标准与自动化评测技术，指导后训练优化方向； 4.探索多模态大模型的前沿技术，如端到端语音对话，情感交互等，并落地到业务产品。

更新于 2025-09-04深圳

元宝-大模型策略产品（语音方向）

社招3年以上元宝产品

1.负责从模型策略、架构设计、交互逻辑等提升端到端的语音效果和影响力； 2.协同算法团队、工程团队、评测团队，从产品视角提出功能优化方向，确保产品体验和用户口碑在市场中处于领先位置； 3.深入挖掘用户需求并提出产品策略，协同交互和设计团队，推动产品创新。

更新于 2026-02-03北京