过度采样:在训练数据集中复制代表少数类的事件 这意味着我们可以使用 的精确副本。但是,某些行的多个实例可能会使分类器过于具体,从而导致过度拟合问题。
SMOTE(合成少数类过采样技术):生成“合成”行并将其 这意味着我们可以使用 添加到少数类中。根据特征空间中少数类事件的相似性生成人工记录。
校正预测类别概率
假设我们在重采样的数据集上训练模型。重采样将数 手机号码数据 据的类分布从不平衡变为平衡。现在,如果我们将模型应用于测试数据并获得预测的类概率,它们将不会反映原始数据的概率。这是因为模型是在不代表原始数据的训练数据上训练的,因此结果不会推广到原始 自动捐赠匹配您的软件应该根 数据或任何未见过的数据。 型进行预测,但类概率并不现实:我们可以说交易是更可能是欺诈还是合法,但我们不能说它属于其中一个类别的可能性有多大。有时我们想改变分类阈值,因为我们想承担更多/更少的风险,那么具有未经校正的校正类概率的模型将不再起作用。
重采样后
我们现在已经在平衡数据上训练了一个模型,即包含相等 理的 印度手机号码 最关键方 数量的欺诈和合法交易的数据,幸运的是,这对于任何信用卡提供商来说都不是现实的情况,因此 – 如果不纠正预测的类别概率 – 就不会提供有关未来几周和几个月交易风险的信息。