logo of mihoyo

米哈游AI模型评测工程师 (企业效能支持)

社招全职3年以上质量管理类地点:上海状态:招聘

任职要求


1、本科及以上学历,计算机科学、人工智能、大数据等相关专业
2、具备3年以上AI/NLP领域相关经验,有AI产品评测、模型评估、质量保障或算法优化经验者优先
3、熟悉LLM算法研发流程,熟悉大模型prompt工程、RAG、SFT、Agent构造等方向、熟悉模型相关评测指标者优先;
4、掌握至少…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责企业级AI知识库问答系统及智能Agent的评测体系建设,制定评测标准与流程,验证AI对知识库内容的理解、检索、应答准确性,识别问答偏差、信息遗漏、语义误解等问题,输出详细评测报告
2、基于业务需求与AI产品迭代规划,搭建并持续优化知识库问答、Agent评测的指标体系、评测基准库与自动化/半自动化评测方案,提升评测效率与覆盖度
3、深度分析评测结果,定位系统短板(如知识盲区、推理错误、交互不畅等),与算法、工程、产品团队协作推动模型迭代与产品优化
4、跟踪业界前沿评测方法(如Agent评估框架、复杂任务评测基准),引入适合业务场景的评测工具与方法论
包括英文材料
学历+
大数据+
NLP+
算法+
大模型+
Prompt+
RAG+
还有更多 •••
相关职位

logo of bytedance
社招5年以上A125554

团队介绍:火山方舟是火山引擎推出的一站式大模型服务平台,是中国大模型市场产品和份额领跑者。平台提供模型推理、评测、精调等全流程服务。方舟搭载了豆包及业界主流大模型,提供丰富的插件生态和AI应用开发服务,并通过稳定可靠的安全互信方案、专业的算法技术服务,全方位保障企业级AI应用落地。 1、负责定义和驱动字节跳动机器学习平台与中央异构算力池的产品演进,提升全集团AI研发效率与资源效能; 2、深度理解字节跳动各业务线(推荐、广告、搜索、电商、Seed等)在机器学习研发全链路中的工程挑战与效能瓶颈,抽象出算法工程师、资源运营者等关键角色的核心痛点,并转化为清晰的平台产品机会; 3、负责公司级机器学习平台(AML-Engine/MLSys)的中长期产品规划与落地,覆盖从数据、训练、实验、评估到服务部署的全生命周期,持续提升平台的研发效率、系统稳定性与用户体验; 4、主导大规模异构计算资源池(中央算力池)的产品化建设,推动云原生架构、高并发调度、分布式系统等前沿技术在产品中深度实践,确保多业务、大规模场景下的资源高效、稳定利用,最大化平台与算力综合价值。

更新于 2025-12-24北京
logo of bytedance
社招1-3年A243085A

团队介绍:DevMind团队负责字节跳动研发数字化管理平台开发工作,提供数据挖掘引擎,指标管理,在线化报告,可视化分析等产品能力,通过对研发效能全量数据进行度量、洞察,辅助决策与改进,实现“数据驱动研发效能提升”。随着AI技术高速发展,团队将重塑软件工程价值度量体系,我们正构建覆盖业务架构、软件架构、部署架构的智能化度量基座。 1、利用大模型、数据挖掘等技术从研发数据资产中,构建起软件工程的度量、价值体系,辅助研发团队提升软件工程研发效能; 2、利用大模型、知识图谱等技术,建立基于字节跳动内部专家知识库,提供软件工程优化改进建议,帮助企业/团队提升决策&协作效率; 3、基于LLM的探索性数据分析系统研发,能够基于研发效能数据进行相关性、归因等数据分析,提供有价值的数据洞见和改进建议; 4、持续调研业界前沿数据分析技术和最新数据智能化技术,结合实际场景进行有效实施并达到行业前列水平; 5、进行模型选型,调优,评测,知识库搭建,帮助产品达到好的用户体验和效果。

更新于 2024-07-26上海
logo of tencent
社招2年以上企业微信SaaS

1.针对企业微信AI模型的特点,持续构建完善的评测基准,包括但不限于NLP、ASR、MLLM等领域,有效指导算法优化方向; 2.负责评测数据的自动化生产能力构建:基于数据泛化等能力,构建领域增强型评测数据集生产链路,支持多模态场景的自动化数据扩增与效果验证; 3.负责自动化评测与归因分析:探索并实现自动化评测与模型缺陷归因机制。

更新于 2026-02-06广州
logo of aliyun
实习阿里云2026届

阿里云持续推进AI 技术深化战略布局, 围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心场景。为此,我们正积极招募优秀人才: 1、参与企业级客户AI智算大模型项目的技术落地与实施,为客户提供从方案评估、实施、演示到部署的全流程服务; 2、结合业务场景,洞察客户需求,设计整体解决方案,助力客户提升AI模型训练和推理效率,特别是在大模型知识问答、自动化BI、内容文摘生成、多模态等领域的算法实践; 3、与算法、售前架构师和产品团队合作,进行研发、验证及部署工作,确保算法解决方案按时且高质量交付; 4、结合项目沉淀大模型交付服务方案的最佳实践,利用开源工具或开发大模型交付工具推进方案的实际应用。

更新于 2025-04-29北京|成都|广州