文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
数据挖掘案例
大数据挖掘案例列表
表格 11 大数据挖掘案例列表
案例名称 | 背景与挖掘目标 | 数据获取 | 数据预处理 | 模型构建 | 模型检验 | 模型应用 |
---|---|---|---|---|---|---|
电力窃漏电用户自动识别 | 目标:自动检查、判断用户是否存在漏电行为。 | 营销系统获取用户数据;电力计量自动化系统获取实时用电数据。 | 异常值~拉氏插值。 指标:电量趋势下降指标、线损率、告警类指标 | LM 神经网络或 DT 决策树 | 分类结果的混淆矩阵。 ROC 曲线 | |
航空公司客户价值分析 | 客户分类; 比较客户价值;客户个性化服务。 | 客户基本信息;乘机信息;积分信息。 | 航空公司 LRFMC 模型或 RFM 模型。 | K 中心聚类 | 会员升级与保级;首次兑换;交叉销售。 | |
中医证型关联规则挖掘 | 挖掘患者症状与中医证型之间的关联关系。 | 问卷调查。 | 证型系数;数据离散化 | 关联规则 | ||
基于水色图像的水质评价 | 基于计算机视觉,以专家经验为基础,水质分级判别。 | 采集图像。图像特征:颜色 | 图像切割和颜色矩特征提取。 颜色直方图。 | SVM | ||
家电电器用户行为分析与事件识别 | 识别用户 | 热水器采集 | 属性构造(4 类属性指标:时长、频率、用水的量化、用水的波动) | 神经网络 | ||
应用系统负载分析与磁盘容量预测 | CPU/内存/磁盘使用信息 | 平衡性检验、白噪声检验、模型识别 | 检验残差序列是否为白噪声 | 容量预测 | ||
电子商务网站用户行为分析及服务推荐 | 用户访问推荐 | 用户访问日志 | 推荐系统(协同过滤 CF) | |||
财政收入影响因素分析及预测模型 | 识别影响财务收入的关键特征 | 相关系数矩阵 | 回归;神经网络 | 灰色预测 | ||
基于基站定位数据的商圈分析 | 对基站分群; 对商圈分群。 | 移动运营商提供的接口数据 | 谱系聚类 | |||
电商产品评论数据情感分析 | 分析某产品的用户情感倾向。从评论中挖掘出产品优劣点。 | 某产品的文本评论数据 | 文本去重;文本机械压缩去词;短句删除;文本分词。 | 神经网络语言模型 NNLM;语义网络分析;LDA 主题模型 | ||
案例名称 | 背景与挖掘目标 | 数据获取 | 数据预处理 | 模型构建 | 模型检验 | 模型应用 |
备注:
ROC:受试者工作特征曲线 (receiver operating characteristic curve,简称 ROC 曲线),又称为 感受性 曲线(sensitivity curve)。以假阳性概率(False positive rate)为 横轴 ,击中概率为纵轴所组成的坐标图,和被试在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。在 ROC 曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。曲线下面积越大越准确。
航空公司 LRFMC 模型:用来识别客户价值的五个指标。统计时间段为观察窗口时间,一般单位为月。
模型 | L | R | F | M | C |
---|---|---|---|---|---|
LRFMC | 会员入会时间 距观察窗口结束的月数 | 客户最近一次坐飞机-- | 飞行次数 | 总飞行里程 | 乘坐舱位所对应的平均折扣系数。 |
- 图像特征包括颜色、纹理、形状和空间关系特征等等。颜色特征主要包括颜色直方图和颜色矩方法。一幅图像的色彩分布也可认为是一种概率分布,因此图像可以用其各阶矩来表示。对于一幅 RGB 颜色空间的图像,具有 R/G/B 三个颜色通道,9 个分量。
- 颜色直方图反应的是图像中颜色的组成分布。
- 颜色矩包括各个颜色通道的一、二、三阶矩。一阶颜色矩采用一阶原点矩,反映图像的整体明暗程度;二阶颜色矩采用二阶中心矩的平方根,反映图像颜色的分布范围;三阶颜色矩采用三阶中心矩的立方根,反映图像颜色分布的对称性。
本章参考
- 大数据公司挖掘数据价值的 49 个典型案例 https://mp.weixin.qq.com/s/OiiHUaD44gOXd2l6u-bzoQ
- 数据指标体系建立和应用步骤探讨 https://mp.weixin.qq.com/s/w_ludLpKyG2P5J8TGAeVjw
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论