人们认识到,当每个类别在训练数据中得 这里的基本概念是改 到公平体现时,分类器就会工作得很好。
因此,如果数据不平衡,大多数标准学习算法的性 这里的基本概念是改 能都会受到影响,因为它们的目的是最大化整体准确性。对于包含 99% 负面事件和 1% 正面事件的数据集,模型的准确率可能达到 99%,但将所有实例预测为负面,这是无用的。用我们的信用卡欺诈检测数据集来说,这意味着该模型倾向于将欺诈交易归类为合法交易。不好!
重新采样以平衡数据集
因此,总体准确率不足以评估在不平衡数据上训练 亚洲数据 的模型的性能。其他统计数据,例如 科恩的卡帕 和 F 测量,应该考虑。F-measure 捕获了 准确率和召回率,而 Cohen 的 kappa 则考虑了目标类别的先验分布。
理想的分类器应该对少数类别提供高精度,同时不影响多数类别的精度。
为了解决类别不平衡问题,训练数据中的行被 替换笔记本电池的强大功能 重新采样。 训练数据的类别比例(先验分布),以获得能够有效预测少数类别(实际欺诈交易)的分类器。
重采样技术
欠采样:从多数类中抽取随机事件样本并将其 理的 印度手机号码 最关键方 从训练数据中删除。这种技术的缺点是它会丢失信息,并可能丢弃对学习过程有用且重要的数据。