腾讯元宝-大模型策略产品(语音方向)
任职要求
1.了解LLM等技术原理和语音技术发展趋势,了解如何提升大模型产品的效果; 2.日常高频使用AI大模型语音类AI产品,对产品效果敏感,对AI产品效果有判断…
工作职责
1.负责从模型策略、架构设计、交互逻辑等提升端到端的语音效果和影响力; 2.协同算法团队、工程团队、评测团队,从产品视角提出功能优化方向,确保产品体验和用户口碑在市场中处于领先位置; 3.深入挖掘用户需求并提出产品策略,协同交互和设计团队,推动产品创新。
1.负责从模型策略、架构设计、交互逻辑等提升端到端的语音效果和影响力; 2.协同算法团队、工程团队、评测团队,从产品视角提出功能优化方向,确保产品体验和用户口碑在市场中处于领先位置; 3.深入挖掘用户需求并提出产品策略,协同交互和设计团队,推动产品创新。
1.自动评估体系建设:设计并搭建大模型自动评估体系,覆盖通用能力及专项能力(如推理、写作、语音、VLM 等);构建评测指标体系与自动化评测流程,推动评测体系标准化、模块化、可扩展化; 2.Benchmark 研究与落地:跟踪国内外前沿大模型评测方法与 Benchmark,研究其评测维度与自动化机制;复现与改造高质量评测集,结合业务场景定制评测任务,确保评测的真实性与可复现性; 3.模型效果分析与策略优化:定期对不同版本模型进行系统评测与对比,输出详细分析报告,识别模型优势与薄弱点;针对记忆、写作、语音、多模态(VLM)等专项能力,设计细粒度评测指标与分析策略,支撑模型迭代方向; 4.用户数据分析与体验优化:持续监测与分析真实用户交互数据,挖掘模型表现的 badcase 与典型问题;与算法及产品团队协作,将用户侧问题转化为可量化的评测指标与优化方案;建立用户体验反馈与评测体系联动机制,推动模型效果持续提升与体验闭环优化; 5.跨团队协作与产品规划:与算法、工程、产品团队紧密配合,定义评测需求与指标体系,推动自动评测体系在实际业务与模型研发中的落地,形成评测 → 分析 → 优化的完整闭环。
1.自动评估体系建设:设计并搭建大模型自动评估体系,覆盖通用能力及专项能力(如推理、写作、语音、VLM 等);构建评测指标体系与自动化评测流程,推动评测体系标准化、模块化、可扩展化; 2.Benchmark 研究与落地:跟踪国内外前沿大模型评测方法与 Benchmark,研究其评测维度与自动化机制;复现与改造高质量评测集,结合业务场景定制评测任务,确保评测的真实性与可复现性; 3.模型效果分析与策略优化:定期对不同版本模型进行系统评测与对比,输出详细分析报告,识别模型优势与薄弱点;针对记忆、写作、语音、多模态(VLM)等专项能力,设计细粒度评测指标与分析策略,支撑模型迭代方向; 4.用户数据分析与体验优化:持续监测与分析真实用户交互数据,挖掘模型表现的 badcase 与典型问题;与算法及产品团队协作,将用户侧问题转化为可量化的评测指标与优化方案;建立用户体验反馈与评测体系联动机制,推动模型效果持续提升与体验闭环优化; 5.跨团队协作与产品规划:与算法、工程、产品团队紧密配合,定义评测需求与指标体系,推动自动评测体系在实际业务与模型研发中的落地,形成评测 → 分析 → 优化的完整闭环。
1.质量标准制定:负责制定教育类大模型的质量标准和评估体系,涵盖问答生成的准确性、流畅性、合理性等维度,确保AI生成内容在教育场景下的高质量与高准确性; 2.生成内容的评测与优化: 基于用户反馈、数据分析等手段,组织评测团队对AI生成的教育内容进行定期评测,分析结果并与技术团队合作,推动模型的不断优化与进步; 3.模型智能提升策略: 制定大模型在教育领域整体的智能提升策略,协调跨部门资源,推动AI大模型在教育应用中的深度融合与持续创新; 4.用户反馈与需求挖掘: 通过数据分析、用户调研等手段,挖掘教育产品用户的需求与痛点,优化大模型的生成内容与互动体验; 5.跨部门协作与项目推进: 与研发、数据科学、教育专家等团队密切协作,确保AI的质量标准和优化方案能够高效落地。