了解数据分析中的过采样和欠采样

Ehsanuls55 · Post by **Ehsanuls55** » Sat Feb 01, 2025 4:30 am

第二步是消除预测模型中的偏见。

数据集通常存在偏差，未流失客户的数量比流失客户的数量要多。这会导致对实时客户满意度和未来客户流失率可能性的洞察不准确。

为了消除这种偏见，数据科学家和分析师必须对数据集进行规范化。有两种方法可以实现此目的：

过采样
我们可以增加被拒绝的客户端实例的数量来平衡类别。过采样主要有两种方法：

随机过采样：这涉及随机复制已流失客户的数据点。
合成少数群体过采样：此方法根据现有客户的数据点创建新的流失客户合成数据点，以避免重复
过采样
欠采样的重点是平衡尚未流失的客户端实例的数量。由于存在丢失宝贵数据的风险，因此它与较小的客户数据集不兼容。

以下是三种子采样方法：

随机子采样：随机从多数类中删除实例
链接子采样：这包括识别和消除类似的实例
基于聚类的子采样：在这种情况下，未流失的客户根据其相似性进行分组，并剔除最常见委内瑞拉电子邮件列表组中的客户。这样，您便可维持一组未发生改变的多样化客户，并减少他们的总数。
一旦消除偏见，我们就开始对变量进行编码。

步骤 3：编码分类变量
大多数机器学习算法都处理数值数据。然而，现实世界数据集中的许多变量都是文本或标签的形式。这些变量被称为分类变量。

由于文本和标签与算法不兼容，我们必须以数字格式对其进行编码。

以下是两种编码方法：

1. 一次性编码
以下是热编码的步骤：

为分类变量中的每个类别创建一个新的二进制列
每行在对应于其类别的列中为 1，在其他列中为 0。
例子：

数据字段： “订阅类型”
类别： “基础版”、“标准版”和“高级版”
结果：

编码结果是三个新列：

订阅类型_基本
订阅类型_标准
订阅类型_Premium
根据客户的数据，这些列将被分配 1 或 0。

2. 标签编码
该技术包括为分类变量中的每个类别分配一个唯一的数值。它最适合具有自然顺序的类别，例如“低”、“中”和“高”

例子：

数据字段：客户满意度
类别： “非常不满意”、“不满意”、“一般”、“满意”和“非常满意”
结果：

标签编码将为每个类别分配值1、2、3、4和5。

旋转预测术语表
当模型过度学习训练数据，记住噪音和怪癖而不是捕捉潜在的模式时，就会发生客户流失预测中的过度拟合。这会导致模型在训练数据上表现异常出色，但难以推广到新的未知数据。在客户流失预测中，这意味着模型可以准确预测训练集中的客户流失，但不能正确识别未来可能流失的客户。

正则化是一种技术，它阻止客户流失模型为各个特征分配过高的权重，从而导致过度拟合。本质上，正则化通过关注最重要的特征并避免过度依赖单一特征，帮助模型更好地推广到新的和未知的数据。