返回介绍

10.2 分析方法与过程

发布于 2024-01-28 21:41:24 字数 1883 浏览 0 评论 0 收藏 0

本次数据挖掘建模的总体流程如图10-1所示。

热水器用户用水事件划分与识别主要包括以下步骤。

1)对热水用户的历史用水数据进行选择性抽取,构建专家样本。

2)对步骤1)形成的数据集进行数据探索分析与预处理,包括探索用水事件时间间隔的分布、规约冗余属性、识别用水数据的缺失值,并对缺失值进行处理,根据建模的需要进行属性构造等。根据以上处理,对用水样本数据建立用水事件时间间隔识别模型和划分一次完整的用水事件模型,再在一次完整用水事件划分结果的基础上,剔除短暂用水事件,缩小识别范围。

图10-1 热水器用户用水识别建模总体流程

3)在步骤2)得到的建模样本数据基础上,建立洗浴事件识别模型,对洗浴事件识别模型进行模型分析评价。

4)对步骤3)形成的模型结果应用并对洗浴事件划分进行优化。

5)调用洗浴事件识别模型,对实时监控的热水器流水数据进行洗浴事件自动识别。

10.2.1 数据抽取

在使用热水器的过程中,热水器的状态会经常发生改变,比如开机和关机、由加热转到保温、由无水流到有水流、水温由50℃变为49℃等。而智能热水器在状态发生改变或者水流量非零时,每两秒会采集一条状态数据。由于数据的采集频率较高,并且数据来自大量用户,数据总量非常大。本案例对原始数据采用无放回随机抽样法抽取200家热水器用户从2014年1月1日至2014年12月31日的用水记录作为原始建模数据。

热水器采集的用水数据包含以下12个属性:热水器编码、发生时间、开关机状态、加热中、保温中、有无水流、实际温度、热水量、水流量、节能模式、加热剩余时间、当前设置温度。12个属性的说明见表10-2,具体的数据见表10-1。

表10-2 热水器属性说明

10.2.2 数据探索分析

用水停顿时间间隔为一条水流量不为0的流水记录同下一条水流量不为0的流水记录之间的时间间隔。根据现场实验统计,两次用水过程的用水停顿的间隔时长一般不大于4分钟。为了探究用户真实用水停顿时间间隔的分布情况,统计用水停顿的时间间隔并作频率分布直方图。通过频率分布直方图分析用户用水停顿时间间隔的规律性,从而探究划分一次完整用水事件的时间间隔阈值。具体的数据见表10-3。

表10-3 用水停顿时间间隔频数分布表 (单位:分钟)

分析表10-3可知,停顿时间间隔为0~0.3分钟的频率很高,根据日常用水经验可以判断其为一次用水时间中的停顿;停顿时间间隔为6~13分钟的频率较低,分析其为两次用水事件之间的停顿间隔。两次用水事件的停顿时间间隔分布在3~7分钟。根据现场实验统计用水停顿的时间间隔近似。

10.2.3 数据预处理

本案例的数据集的特点是数据量涉及上万个用户而且每个用户每天的用水数据多达数万条、存在缺失值、与分析主题无关的属性或未直接反应用水事件的属性等。在数据预处理阶段,针对这些情况相应地应用了缺失值处理、数据规约和属性构造等来解决这些问题。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文