返回介绍

7.1 数据集

发布于 2024-01-27 22:10:03 字数 1945 浏览 0 评论 0 收藏 0

创建具有成千上万行数据的数据集,不需从零开始,从互联网上下载即可。我们要使用的第一个数据集是葡萄酒质量数据集,从 UCI 机器学习资料库中可以找到。第二个数据集是客户流失数据集,来自于几个数据分析博客。

7.1.1 葡萄酒质量

葡萄酒质量数据集包括两个文件,一个是红葡萄酒数据文件,另一个是白葡萄酒数据文件,白葡萄酒是著名的葡萄牙“Vinho Verde”葡萄酒的一个变种。红葡萄酒文件中包含 1599 条观测,白葡萄酒文件中包含 4898 条观测。两个文件中都有 1 个输出变量和 11 个输入变量。输出变量是酒的质量,是一个从 0(低质量)到 10(高质量)的评分。输入变量是葡萄酒的物理化学成分和特性,包括非挥发性酸、挥发性酸、柠檬酸、残余糖分、氯化物、游离二氧化硫、总二氧化硫、密度、pH 值、硫酸盐和酒精含量。

这两个数据集可以通过以下的 URL 下载:

· 红葡萄酒(http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv

· 白葡萄酒(http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv

我们不对这两个数据集分别进行分析,而是将它们合成了一个数据集。当你将红葡萄酒数据和白葡萄酒数据合成一个文件后,结果数据集中应该包括一个标题行和 6497 条观测。另外,还应该再添加一列,用来区分这行数据是红葡萄酒还是白葡萄酒的数据。我们要使用的数据集如图 7-1 所示(请注意左侧的行号和第 A 列中新加的“type”变量)。

图 7-1:将红葡萄酒数据和白葡萄酒数据连接后的数据集,新增一列 type,表示这行数据来自于哪个数据集

7.1.2 客户流失

客户流失数据集是一个包含 3333 条观测的文件,其中的观测是电信公司现有的和曾经的客户。这个文件有 1 个输出变量和 20 个输入变量。输出变量 Churn? 是一个布尔型变量(True/False),表示在数据收集的时候,客户是否已经流失(是否还是电信公司的客户)。

输入变量是客户的电话计划和通话行为的特征,包括状态、账户时间、区号、电话号码、是否有国际通话计划、是否有语音信箱、语音信箱消息数量、白天通话时长、白天通话次数、白天通话费用、傍晚通话时长、傍晚通话次数、傍晚通话费用、夜间通话时长、夜间通话次数、夜间通话费用、国际通话时长、国际通话次数、国际通话费用和客户服务通话次数。

这个数据集可以在 Churn(https://raw.githubusercontent.com/EricChiang/churn/master/data/churn.csv)下载。

客户流失数据集如图 7-2 所示。

图 7-2:客户流失数据集的头部和尾部

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文