第二步是消除预测模型中的偏见。
数据集通常存在偏差,未流失客户的数量比流失客户的数量要多。这会导致对实时客户满意度和未来客户流失率可能性的洞察不准确。
为了消除这种偏见,数据科学家和分析师必须对数据集进行规范化。有两种方法可以实现此目的:
过采样
我们可以增加被拒绝的客户端实例的数量来平衡类别。过采样主要有两种方法:
随机过采样:这涉及随机复制已流失客户的数据点。
合成少数群体过采样:此方法根据现有客户的数据点创建新的流失客户合成数据点,以避免重复
过采样
欠采样的重点是平衡尚未流失的客户端实例的数量。由于存在丢失宝贵数据的风险,因此它与较小的客户数据集不兼容。
以下是三种子采样方法:
随机子采样:随机从多数类中删除实例
链接子采样:这包括识别和消除类似的实例
基于聚类的子采样:在这种情况下,未流失的客户根据其相似性进行分组,并剔除最常见 委内瑞拉电子邮件列表 组中的客户。这样,您便可维持一组未发生改变的多样化客户,并减少他们的总数。
一旦消除偏见,我们就开始对变量进行编码。
步骤 3:编码分类变量
大多数机器学习算法都处理数值数据。然而,现实世界数据集中的许多变量都是文本或标签的形式。这些变量被称为分类变量。
由于文本和标签与算法不兼容,我们必须以数字格式对其进行编码。
以下是两种编码方法:
1. 一次性编码
以下是热编码的步骤:
为分类变量中的每个类别创建一个新的二进制列
每行在对应于其类别的列中为 1,在其他列中为 0。
例子:
数据字段: “订阅类型”
类别: “基础版”、“标准版”和“高级版”
结果:
编码结果是三个新列:
订阅类型_基本
订阅类型_标准
订阅类型_Premium
根据客户的数据,这些列将被分配 1 或 0。
2. 标签编码
该技术包括为分类变量中的每个类别分配一个唯一的数值。它最适合具有自然顺序的类别,例如“低”、“中”和“高”
例子:
数据字段:客户满意度
类别: “非常不满意”、“不满意”、“一般”、“满意”和“非常满意”
结果:
标签编码将为每个类别分配值1、2、3、4和5。
旋转预测术语表
当模型过度学习训练数据,记住噪音和怪癖而不是捕捉潜在的模式时,就会发生客户流失预测中的过度拟合。这会导致模型在训练数据上表现异常出色,但难以推广到新的未知数据。在客户流失预测中,这意味着模型可以准确预测训练集中的客户流失,但不能正确识别未来可能流失的客户。
正则化是一种技术,它阻止客户流失模型为各个特征分配过高的权重,从而导致过度拟合。本质上,正则化通过关注最重要的特征并避免过度依赖单一特征,帮助模型更好地推广到新的和未知的数据。