米哈游大模型算法评测工程师

社招全职1年以上质量管理类地点：上海 | 北京状态：招聘

扫码手机上打开

任职要求

1、计算机、人工智能、统计学等相关专业，1 年及以上 NLP／ML 相关经验（优秀者可放宽）；
2、扎实的机器学习与深度学习基础，熟悉 Transformer、LLM 预训练／微调、Prompt Engineering、检索增强等核心技术，能够快速跟踪学术与开源动态；
3、良好的编程及软件工程能力，熟悉 Pandas/Numpy 等分析工具，熟悉 API 设计、日志监…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、与产品及模型团队紧密协作，设计完善大模型与 AI 应用评测标准；
2、分析模型表现，定位性能瓶颈或安全风险，向团队输出优化建议；
3、开发维护自动评测工具、可视化面板等监控机制；
4、协助数据收集与标注，确保评测数据的质量和可信度；
5、规范众包标注、人员管理及质量控制流程。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

NLP+

机器学习+

深度学习+

还有更多 •••

登录查看完整学习资料

相关职位

大模型算法评测工程师

社招A32514

1、设计与研发LLM、VLM及音视频的大模型评测体系，支持大量的模型迭代与研发； 2、构建业务域场景的评测体系，支持各业务域的评测能力； 3、负责设计整体的评测体系、框架、以及大规模快速的分布式评测； 4、研发大模型评测框架与平台，能够可视化支持各种类型的评测。

更新于 2024-09-11北京

大模型算法评测工程师

社招1-3年智能与信息技术

1. 负责大模型评测体系建设，包含评测集管理、评测流程建设、评测工具需求制定及开发落地； 2. 负责大模型评测，包含制定测试方案、测试指标定义，测试集数据建设、测试执行并输出专业测试报告； 3. 评测技术的持续迭代和优化，能通过Prompt工程或自训练算法模型等AI手段，建设提升大模型评测能力，并负责相关自动化测试工具开发及维护, 最大化提高测试效率 4. 站在用户角度，对产品、研发提出建设性的意见，在测试参与的各个流程中以用户视角保证产品体验 5. 调研行业先进AI技术，并推动落地在实际项目中。

北京

测试开发工程师（算法质量）-TikTok直播

社招A45571A

团队介绍：TikTok是一个覆盖150个国家和地区的国际短视频平台，我们希望通过TikTok发现真实、有趣的瞬间，让生活更美好。TikTok 在全球各地设有办公室，全球总部位于洛杉矶和新加坡，办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok直播研发团队，旨在实现TikTok直播业务的研发工作，搭建及维护业界领先的产品。加入我们，你能接触到包括：社交互动、营收活动、主播生态、消费订阅、游戏直播、公会&运营平台等核心业务场景，支持产品在全球赛道上高速发展；也能接触到包括服务架构、大模型算法、基础技术等方向上的技术挑战，保障业务持续高质量、高效率、且安全地为用户服务；同时还能为不同业务场景提供全面的技术解决方案，优化各项产品指标及用户体验。在这里，有大牛带队与大家一同不断探索前沿，突破想象空间。在这里，你的每一行代码都将服务亿万用户。在这里，团队专业且纯粹，合作氛围平等且轻松。目前在北京，上海，杭州、广州、深圳分别开放多个岗位机会。 1、负责TikTok直播策略方向的算法评测及评测体系建设，包括从算法到工程的算法评测能力建设、评测标准化、评测自动化、算法质量兜底能力建设、快速问题诊断能力、智能化评测能力等内容； 2、算法评测工程化能力建设：包括工具平台开发、与业务深度协作解决业务痛点、算法质量运营等内容； 3、策略产品测试：与产品研发团队密切配合，完成算法场景评测等工作，保障模型交付质量； 4、质量体系建设：模型算法测试相关工具建设，自动化测试、持续集成、监控报警建设； 5、线上稳定性保障：重要线上问题的分析，定位，同时推进相关问题系统性优化解决。

更新于 2024-08-14北京

AI算法评测工程师

校招

1. 与算法、产品密切配合，共同制定视觉AI算法评测标准，设计测试方案与用例，包含感知、运动控制、决策等算法； 2. 熟悉智能硬件产品，专注视觉算法模块测试，构建贴近真实的测试环境，验证AI模型性能与边界能力，协同算法/嵌入式工程师迭代优化； 3. 数据驱动优化，面对不同类型产品，构建对应基于场景的标准化评测数据集，输出算法模型关键性能指标，进行badcase深度分析； 4. 评测体系搭建，建立标准化、可复用的AI模型评测流程与自动化工具链，提升测试覆盖率和效率； 5. 竞品分析：横向竞品AI能力评测，输出差异化分析报告，指导产品技术决策与卖点打造。

更新于 2025-08-19深圳