logo of mihoyo

米哈游大模型算法评测工程师

社招全职1年以上质量管理类地点:上海 | 北京状态:招聘

任职要求


1、计算机、人工智能、统计学等相关专业,1 年及以上 NLP/ML 相关经验(优秀者可放宽);
2、扎实的机器学习深度学习基础,熟悉 Transformer、LLM 预训练/微调、Prompt Engineering、检索增强等核心技术,能够快速跟踪学术与开源动态;
3、良好的编程及软件工程能力,熟悉 Pandas/Numpy 等分析工具,熟悉 API 设计、日志监…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、与产品及模型团队紧密协作,设计完善大模型与 AI 应用评测标准;
2、分析模型表现,定位性能瓶颈或安全风险,向团队输出优化建议;
3、开发维护自动评测工具、可视化面板等监控机制;
4、协助数据收集与标注,确保评测数据的质量和可信度;
5、规范众包标注、人员管理及质量控制流程。
包括英文材料
NLP+
机器学习+
深度学习+
还有更多 •••
相关职位

logo of bytedance
社招A32514

1、设计与研发LLM、VLM及音视频的大模型评测体系,支持大量的模型迭代与研发; 2、构建业务域场景的评测体系,支持各业务域的评测能力; 3、负责设计整体的评测体系、框架、以及大规模快速的分布式评测; 4、研发大模型评测框架与平台,能够可视化支持各种类型的评测。

更新于 2024-09-11北京
logo of liauto
社招1-3年智能与信息技术

1. 负责大模型评测体系建设,包含评测集管理、评测流程建设、评测工具需求制定及开发落地; 2. 负责大模型评测,包含制定测试方案、测试指标定义,测试集数据建设、测试执行并输出专业测试报告; 3. 评测技术的持续迭代和优化,能通过Prompt工程或自训练算法模型等AI手段,建设提升大模型评测能力,并负责相关自动化测试工具开发及维护, 最大化提高测试效率 4. 站在用户角度,对产品、研发提出建设性的意见,在测试参与的各个流程中以用户视角保证产品体验 5. 调研行业先进AI技术,并推动落地在实际项目中。

北京
logo of bytedance
社招A45571A

团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok直播研发团队,旨在实现TikTok直播业务的研发工作,搭建及维护业界领先的产品。 加入我们,你能接触到包括:社交互动、营收活动、主播生态、消费订阅、游戏直播、公会&运营平台等核心业务场景,支持产品在全球赛道上高速发展; 也能接触到包括服务架构、大模型算法、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。 在这里,团队专业且纯粹,合作氛围平等且轻松。 目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 1、负责TikTok直播策略方向的算法评测及评测体系建设,包括从算法到工程的算法评测能力建设、评测标准化、评测自动化、算法质量兜底能力建设、快速问题诊断能力、智能化评测能力等内容; 2、算法评测工程化能力建设:包括工具平台开发、与业务深度协作解决业务痛点、算法质量运营等内容; 3、策略产品测试:与产品研发团队密切配合,完成算法场景评测等工作,保障模型交付质量; 4、质量体系建设:模型算法测试相关工具建设,自动化测试、持续集成、监控报警建设; 5、线上稳定性保障:重要线上问题的分析,定位,同时推进相关问题系统性优化解决。

更新于 2024-08-14北京
logo of kuaishou
社招3-5年J0012

音视频生成大模型评测体系建设与演进及业务保障,负责包括但不限于视频生成大模型中音频生成模块(Audio Gen)及音视频一体化的算法效果。不仅是评测的执行者,更是评测体系的架构师,通过深度的算法归因分析,驱动音频 VAE等核心组件的算法优化和迭代。 1、音视频一体化评测体系建设: 1)音频生成与音频理解相关算法、评测方法及评测指标体系具有深入理解,熟悉常见视频与音频质量评估方法,能够结合业务场景设计合理的评测方案; 2)建立从底层算子(VAE, Latent Space)到上层生成效果的全链路评测标准; 3)定义并量化音画同步性、语义关联度、音频美学表现力等关键维度; 2、Benchmark 与方法论沉淀: 1)构建具有行业领先水平的音频生成 Benchmark,涵盖音乐、环境音、音效(SFX)及人声等; 2)沉淀主客观结合的评测方法论,包括客观指标(FAD、KL Divergence、IS、CLAP Score)与专家级主观评价量表(MOS, MUSHRA); 3、深度诊断与归因分析:输出专业评测报告,深度分析,定位模型缺陷,如针对音频 VAE 压缩失真、音频扩散模型频谱缺失、相位扭曲等问题进行深度诊断,并给出改进建议; 4、前瞻性调研与实验:持续跟踪 AIGC 领域(如 ElevenLabs、Suno、Stable Audio等)前沿技术动态,将行业最新的模型能力和技术路线转化为可落地的评测方案; 5、评测工具与平台化驱动:参与或主导自动化评测工具与平台的开发,利用技术手段提升大规模音视频数据的评测效率,探索基于大模型的自监督评测(LLM-as-a-judge)等创新手段。

更新于 2026-03-25北京