当前位置: 主页 > 外烟分类 > 分类算法的性能指标(分类算法常见的性能指标有)

分类算法的性能指标(分类算法常见的性能指标有)

发布日期:2021-12-24 19:08 作者:shunf外烟
外烟资讯

介绍了“分类算法的指标是什么”的知识。很多人在实际案例操作中都会遇到这样的困难。接下来,让边肖带领我们学习如何应对这些情况!希望大家认真阅读,学点东西!

分类是机器学习中的一个重要问题。许多重要的算法都在解决分类问题,如决策树、支持向量机等。其中,二元分类问题是分类问题中的一个重要课题。

常见的分类模型包括:逻辑回归、决策树、朴素贝叶斯、SVM、神经网络等。模型的评价指标包括以下内容:

00-1010什么是混沌矩阵?这个名字真好。初学者很容易被这个矩阵迷惑。下图A是著名的混淆矩阵,下图B是由混淆矩阵衍生出来的一些著名的评价指标。

在二元分类问题中,实例被分为正类或负类。对于二元问题,有四种情况。如果一个实例是正的,并且被预测为正的,那么它就是一个实类;如果一个实例是负的,并且被预测为正的,那么它被称为假阳性类。因此,如果实例是预测为负的负类,则称为真负类,如果预测为负的正类,则称为假负类。

准确性和召回率是信息检索和统计分类领域中广泛用于评估结果质量的两个指标。准确性是检索到的相关文档数与检索到的文档总数之比,衡量检索系统的准确性。召回率是指检索到的相关文档数与文档数据库中所有相关文档数的比值,衡量检索系统的召回率。

精度和召回率指标有时相互矛盾,需要综合考虑。最常见的方法是在精度和召回率的基础上提出F1值的概念,对精度和召回率进行整体评价。F1的定义如下:

当参数=1时,是最常见的F1。所以F1结合了P和r的结果,F1越高,可以说测试方法越有效。

准确率和召回率是相互影响的。理想情况下,它们必须都很高,但一般来说,准确率高,召回率低,召回率低,准确率高。当然,如果两者都低,又有什么错呢?当准确率和召回率都很高的时候,F1的值也会很高。当两个要求都很高时,可以用F1来衡量。

对于地震预测,我们希望RECALL很高,也就是说我们希望预测每一次地震。此时,我们可以牺牲PRECISION。愿意发出1000次预警,正确预测全部10次地震;不要预测100次。是的,8次,错过了两次。

基于责备好人的原则,我们希望对嫌疑人的定罪非常准确。有的时候有些罪犯被及时放过(召回率低),但也是值得的。

池塘里有1400条鲤鱼、300只虾和300只乌龟。现在是为了钓鲤鱼。撒了一张大网,钓了700条鲤鱼,200只虾,100只乌龟。那么,这些指标如下:

因此,正确率是目标结果在捕获的评估结果中所占的比例;召回率,顾名思义,就是从关注领域召回目标类别的比例;F值是综合这两个指标的评价指标,用来综合反映整个指标。

当然,希望检索结果的精度越高越好,召回率越高越好。但实际上,两者在某些情况下是有矛盾的。比如极端情况下,我们只找到一个结果,是准确的,那么Precision就是100%,但是Recall很低;如果我们返回所有的结果,例如,召回率是100%,但是精度会很低。因此,在不同的场合,你需要自己判断你想要更高的精度还是更高的召回率。如果你正在做实验研究,你可以画出精度-召回率曲线来帮助分析。

动机1:在二元分类模型中,对于获得的连续结果,假设已经确定了一个阈值,例如0.6,并且高于该值的情况被分类为正,而低于该值的情况被分类为负。如果将阈值降低到0.5,则可以识别更多的正类,即增加识别的正例与所有正例的比率,即TPR,但同时,更多的负例被视为正例,即FPR得到改善。为了可视化这种变化,引入了ROC,ROC曲线可用于评估分类器。

动机2:在类不平衡的情况下,比如90个阳性样本,10个阴性样本,所有样本直接归类为阳性样本,识别率为90%。但这显然毫无意义。不再可能通过简单地根据精度和召回率来衡量算法的优缺点来表征这个病态问题。

此外,ROC曲线也可以用来计算“平均平均精度”,即通过改变阈值来选择最佳值。

的结果时所得到的平均精度(PPV)。

 

  如在医学诊断中,判断有病的样本。那么尽量把有病的揪出来是主要任务,也就是第一个指标TPR,要越高越好。而把没病的样本误诊为有病的,也就是第二个指标FPR,要越低越好。

  不难发现,这两个指标之间是相互制约的。如果某个医生对于有病的症状比较敏感,稍微的小症状都判断为有病,那么他的第一个指标应该会很高,但是第二个指标也就相应地变高。最极端的情况下,他把所有的样本都看做有病,那么第一个指标达到1,第二个指标也为1。

  我们可以看出,左上角的点(TPR=1,FPR=0),为完美分类,也就是这个医生医术高明,诊断全对。点A(TPR>FPR),医生A的判断大体是正确的。中线上的点B(TPR=FPR),也就是医生B全都是蒙的,蒙对一半,蒙错一半;下半平面的点C(TPR<FPR),这个医生说你有病,那么你很可能没有病,医生C的话我们要反着听,为真庸医。上图中一个阈值,得到一个点。现在我们需要一个独立于阈值的评价指标来衡量这个医生的医术如何,也就是遍历所有的阈值,得到ROC曲线。

  假设下图是某医生的诊断统计。

网友转载外烟请保留链接:本文链接分类算法的性能指标(分类算法常见的性能指标有),http://fiows.com/lunwenfenxiang/49533.html谢谢合作!



<<剑宗与气宗的区别,风清扬为什么不帮剑宗   诗为什么在唐代发展到高峰,唐诗宋词繁荣的原因>>

相关阅读:

iphone 11 pro max与iphone 12pro(2 max1) CES 2022-在Covid Surge、AMD和一加退学,加入微软、谷歌和英特尔。 iPhone 14谣言 – 发布日期,价格,SIM卡等(iphone14最新官方消息) 2022年最佳小手机