模型评估指标

离线模型评估指标:MRR、MR、HITS@n

MRR的全称是Mean reciprocal rank 。reciprocal rank是第一个正确答案的排名的倒数。MRR是指多个查询语句的排名倒数的均值。该指标越大越好。具体的计算方法如下:

                 

MR的全称是Mean Rank。该指标越小越好。具体的计算方法如下:

                   

HITS@n:第一个正确答案的排名小于n为1,否则为0;全部累加求平均值。一般地,取等于1、3或者10。该指标越大越好。具体的计算方法如下:

                   

不同模型适用该指标进行对比的范畴:数据规模一致。只要用于特征可用性筛选,包括用户特征、物品特征(eg:room)

评估指标实例

-------------- Test result --------------

Test average MRR : 0.21255047003007146

Test average MR : 940.4147869674185

Test average HITS@1 : 0.13283208020050125

Test average HITS@3 : 0.24060150375939848

Test average HITS@10 : 0.3634085213032581

-----------------------------------------

附件:

paper: https://arxiv.org/pdf/2004.08532.pdf

blog:知识图谱常用指标:MRR、Hits@1、Hits@10、MR_岁月求索-CSDN博客_mrr指标

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐