logo of tcl

TCLAI大语言模型测试

社招全职3年以上研发技术类地点:上海状态:招聘

任职要求


1、基本要求:
统招本科及以上学历,计算机大类相关专业,3年以上工作经验。
2、技术能力:
有自动化测试脚本开发经验,熟悉常见的测试框架和工具,如pytest、unittest、selenium、jmeter等。
熟悉Python编程语言,具有良…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、AI模块测试支持:
与内部产业合作团队(如机器人、知识库等)紧密协作,深入了解其对AI模块的需求,负责AI模块的测试工作。
2、技术方案设计与把关:
负责AI测试技术方案的设计与审核,承担测试SE角色,确保测试方案的科学性与可行性。
指导组内测试工程师完成具体测试执行工作,推动测试流程的高效实施。
3、大模型评估与优化:
使用LLM-Judge或其他评估工具,对大语言模型进行质量评估,提出优化建议。
结合技术需求,探索并应用先进的测试方法,提升模型的性能与稳定性。
4、自动化测试开发:
设计并开发自动化测试脚本,提升测试效率与覆盖率。
持续优化测试工具与流程,推动测试自动化的落地与完善。
包括英文材料
学历+
脚本+
pytest+
还有更多 •••
相关职位

logo of kuaishou
社招3-5年J0012

1、测试策略设计:制定大语言模型(如QWEN、Deepseek、GPT等)的测试计划,覆盖功能、性能、安全等维度,设计 prompts 测试用例,评估模型在多样化场景下的响应质量(如事实性、逻辑性、无害性); 2、自动化测试开发:构建自动化测试框架,支持模型迭代的高效验证(如基于Pytest、LangChain、评估指标体系等); 3、跨团队协作:与工程团队合作提出优化建议,推动模型性能优化。

更新于 2026-01-28北京
logo of xiaohongshu
校招机器学习平台

模型压缩方向: 1、探索研发针对大语言模型、多模态大模型、StableDiffusion模型等模型的压缩技术,包括但不限于量化、蒸馏、剪枝、稀疏化等; 2、参与/负责多个业务场景中的模型压缩技术实现,对模型进行轻量化压缩,提高训练/推理效率,支持业务降本增效。 推理框架方向: 1、参与/负责研发面向CV/NLP/多模态/大语言模型等类型模型的推理服务框架; 2、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架。 高性能计算方向: 1、参与/负责AI推理/训练框架的底层性能优化工作,包括但不限于高性能算子、通信库开发与优化等工作; 2、参与/负责大模型计算引擎的研发工作,通过多种方式实现训推性能SOTA; 3、参与/负责前沿AI编译加速等技术的探索和业务落地。 模型训练方向: 1、负责调度公司所有模型训练与推理资源; 2、基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。

北京|上海
logo of xiaohongshu
校招机器学习平台

模型压缩方向: 1、探索研发针对大语言模型、多模态大模型、StableDiffusion模型等模型的压缩技术,包括但不限于量化、蒸馏、剪枝、稀疏化等; 2、参与/负责多个业务场景中的模型压缩技术实现,对模型进行轻量化压缩,提高训练/推理效率,支持业务降本增效。 推理框架方向: 1、参与/负责研发面向CV/NLP/多模态/大语言模型等类型模型的推理服务框架; 2、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架。 高性能计算方向: 1、参与/负责AI推理/训练框架的底层性能优化工作,包括但不限于高性能算子、通信库开发与优化等工作; 2、参与/负责大模型计算引擎的研发工作,通过多种方式实现训推性能SOTA; 3、参与/负责前沿AI编译加速等技术的探索和业务落地。 模型训练方向: 1、负责调度公司所有模型训练与推理资源; 2、基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。

上海|北京
logo of meituan
社招3-5年核心本地商业-美

负责对服体大模型构建的通用垂类应用进行数据生产交付和效果质量评估;通过与产品研发团队的紧密合作,制定评估标准和体系,准确分析评估效果,为应用的优化和改进提供支持,以提升应用的性能、用户体验和市场竞争力 应用效果与质量评估: 1、负责评估基于服体大模型所构建的通用垂类应用的效果和质量,包括但不限于语言理解准确性、生成内容的合理性、逻辑连贯性、知识准确性等方面 2、参与设计测试数据集,涵盖不同场景、用户需求和输入条件,以确保应用在各种情况下的稳定性和可用性 3、参与收集和分析用户反馈数据,结合实际使用情况,对应用的性能和用户体验进行综合评估 评估标准与体系建设: 1、理解业务需求和产品目标,与产品研发团队密切沟通和协作,负责制定详细、明确的评估标准和指标体系 2、理解评估数据的收集、整理和分析流程,确保评估数据的可用性和置信度,为评估体系的持续改进提供数据支持 与产品、算法、运营、业务方保持协同,制定业务规划、目标管理以及团队人员管理工作,共同关注团队效果数据和目标达成,为产品研发团队提供决策依据和改进方向,共同优化模型及agent体验效果 设计和实现大语言模型方向AI训练流程,并不断优化迭代,带领团队高效完成标注和内容生产项目同时负责管理标注团队,积极推动标注工具、组织流程及交付流程优化,提升并完善团队的交付能力

更新于 2025-05-04北京|上海