传音大模型评测工程师(J17932)
社招全职3年以上地点:上海状态:招聘
任职要求
1. 计算机、人工智能、语言学等相关专业本科及以上学历,3年以上模型评测经验。 2. 精通ASR/TTS/NLU领域评测指标(如WER、MOS、BLEU、ROUGE、意图识别准确率等)。 3. 熟悉PyTorch/TensorFlow框架,熟练使用Python及主流评测工具(如ESP…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 负责大语言模型(LLM)及ASR(语音识别)、TTS(语音合成)、NLU(自然语言理解)等模块的评测体系构建,包括效果评估、功能验证、边界场景测试等。 2. 设计多维度评测方案,制定自动化评测工具开发策略,提升评测效率与覆盖率。 3. 深入分析模型输出结果,定位性能瓶颈并提出优化建议,推动算法迭代。 4. 与算法、产品、数据团队协作,输出可量化的评测报告,指导模型部署与应用。 5. 持续跟踪行业最新评测方法(如Prompt Engineering、红队测试等),探索创新评测范式
包括英文材料
学历+
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
TensorFlow+
https://www.youtube.com/watch?v=tpCFfeUEGs8
Ready to learn the fundamentals of TensorFlow and deep learning with Python? Well, you’ve come to the right place.
https://www.youtube.com/watch?v=ZUKz4125WNI
This part continues right where part one left off so get that Google Colab window open and get ready to write plenty more TensorFlow code.
还有更多 •••
相关职位
社招3-5年D13923
1、负责大模型(包括不限于T2V、I2V、MLLM模型)评测工作和评测体系建设,包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率; 3、以算法手段,对基座大模型和AI Native应用进行分阶段、端到端评测; 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设; 5、站在用户角度,对产品、算法发提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。
更新于 2025-08-11北京
社招3-5年D13923
1、以算法视角,参与快手大模型(包括不限于LLM,T2I,T2V、I2V、MLLM模型)评测工作和评测体系建设; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率。
更新于 2025-08-11北京
校招软件测试
1.负责大模型评测体系建设,包含评测集管理、评测流程建设、评测工具需求制定及开发落地; 2.负责大模型评测,包含制定测试方案、测试指标定义,测试集数据建设、测试执行并输出专业测试报告; 3.评测技术的持续迭代和优化,能通过Prompt工程或自训练算法模型等AI手段,建设提升大模型评测能力,并负责相关自动化测试工具开发及维护, 最大化提高测试效率 4.站在用户角度,对产品、研发提出建设性的意见,在测试参与的各个流程中以用户视角保证产品体验 5. 调研行业先进AI技术,并推动落地在实际项目中。
北京