万兴科技高级大模型产品评测经理
社招全职地点:长沙状态:招聘
任职要求
1,具备创意理解和评估能力,有一定的艺术审美能力,重视内容质量的主观评估。 2,深入理解用户场景,能将业务需求和用户需求转化为评测维度、量化指标的的能力。 3,能将质量和效果要求拆解成数据指标,能挖掘出测评数据中有效数据,驱动模型不断迭代。 4,了解扩散模型、Transformer、跨模态对齐等主流大模型架构以及能力和效果边界
工作职责
1,统筹测评体系及流程搭建:包含需求分析、评测标准、测试集构建、问题定位、Badcase回流、分析优化验证闭环流程标准; 2,效果牵引模型创意度方向:动态构建效果评估体系,提炼用户需求如面部表情、手部动作难点为关键指标;指导模型从基础质量提升到生成创意度、情感传达,并持续与行业对标,确保效果竞争力。 3,技术工具平台统筹: 主导自动化测评平台建立,支持批量测试用例执行、数据采集、可视化分析等; 建立完善指标管理体系,包含基础质量、创意指标、业务指标等多层次指标体系。 4,统筹评测小组工作,完成各模型迭代所需评测任务支持,牵引模型正向迭代。
包括英文材料
Transformer+
https://huggingface.co/learn/llm-course/en/chapter1/4
Breaking down how Large Language Models work, visualizing how data flows through.
https://poloclub.github.io/transformer-explainer/
An interactive visualization tool showing you how transformer models work in large language models (LLM) like GPT.
https://www.youtube.com/watch?v=wjZofJX0v4M
Breaking down how Large Language Models work, visualizing how data flows through.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
相关职位
社招3年以上自动驾驶
完成下一代自动驾驶产品设计和交付,负责模型能力训练、人机交互方案设计、功能体验提升等。 与研发团队紧密合作制定自动驾驶产品的训练策略,包括但不限于数据准备、模型微调、强化学习等,确保模型在各应用场景下的性能和效率。 负责自动驾驶产品的评测和对标,指导自动驾驶能力的提升和迭代。 跟踪最新的人工智能技术和行业趋势,评估其对产品的影响,并提出相应的产品改进建议。
社招A29639
1、负责抖音AI分身大模型效果评测的体系设计、执行与结论分析,提出有价值的改进建议,进而提升大语言模型效果与应用体验; 2、评测的体系设计:充分理解用户需求,明确评测目标,制定合理的评测标准,协同评测团队一起建设科学、公允、客观的大模型效果评测体系; 3、评测的落地执行:能统筹规模化评测团队进行人工评测,能协同算法构建自动化评测能力; 4、评测的结论分析:能给出清晰、有逻辑的评测结论,并从模型效果优化视角给出优化建议。
更新于 2024-11-20
社招3-5年A73343
1、效果标准制定:基于业务场景研究及语料分析,定义业务场景的标准及理想态效果; 2、评测体系建立:建立科学、公允、客观的大模型评测体系,帮助发现和分析问题,推动模型优化; 3、策略分析:结合用户洞察、行业分析、实验数据,深化评测分析,并探索优化策略,并推动产品研发迭代方案; 4、语料定义与生产:基于效果问题,定义高质量模型语料,协同标注团队交付标注结果;与算法团队协作,推动模型迭代。
更新于 2025-04-29