基于AlphaMiner的数据挖掘

 

1.  概述
1.1. 商业智能
随着信息化的发展,商业智能(商务智能)( Busissness Inteligence )越来越多地成为关注的焦点。商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。


1.2. 数据挖掘
数据挖掘就是从大量的数据中抽取以前未知并具有潜在可用的模式。然而数据挖掘领域还缺乏独立性,数据挖掘是人工智能技术与数据库技术的结合,它的核心概念是人工智能领域中的机器学习,所采用的主要算法是人工智能中的知识发现技术的应用。
数据挖掘(data mining,DM),又称为数据库中的知识发现(knowledge discovery in Database,为KDD)。它是基于AI、机器学习、统计学等技术,高度自动化地分析原有的数据,进行归纳性推理,从关系数据库、数据仓库、WEB数据库以及其他文件系统中提取可信的、新颖的、有效的、人们感兴趣的、能被人理解的知识的高级处理过程。这些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以帮助管理者作出正确的决策。数据挖掘是OLAP(online analytical processing,OLAP)的高级阶段。数据挖掘的任务是从数据中发现模式,在这里所称的模式,亦即知识,它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。
数据挖掘模式有很多种,按照不同的分类标准,具体的分类也不尽相同。按应用分类则可以分为:预测模型、关联分析、分类分析、聚类分析、序列分析、偏差检测、模式相似性挖掘和Web数据挖掘。


1.3. AlphaMiner简介
AlphaMiner是一个开源数据挖掘平台,具有基于工作流的案例构造、 插件组件体系结构和通用数据挖掘的功能。它包括丰富的数据分析功能,帮助用户建立一个完整的数据挖掘流程,执行各种数据挖掘任务 。 AlphaMiner 主要功能包括:
    •  访问不同数据源中的数据
    •  数据可视化工具用不同的方式勘探数据
    •  数据操作/预处理
    •  建立面向行业、任务的数据挖掘模型
    •  模型评估
    •  在企业环境中部署模型
    •  应用案例的导入/导出
AlphaMiner 系统特点:
    •  插件式组件体系结构。插件式组件体系结构为新的BI应用扩展提供了良好的可扩展性和灵活性,可以在保持系统架构不改变的情况下很方便地增加新的 BI 应用。Alphaminer支持在数据导入和导出、数据转换、建模算法、模型评估和部署等BI应用的各个处理阶段的灵活扩展。从Alphaminer1.0起, Xelopes 和 Weka 被整合到一起,为 Alphaminer 系统提供了极高的性能。
    •  通用数据挖掘功能 。提供了强大的数据分析功能,可构建各种面向行业的商业分析模型,如:顾客描绘,顾客聚类,产品关联规则分析,产品分类和风险预测等。


2.  使用AlphaMiner进行数据挖掘
下面利用AlphaMiner软件丰富的数据分析功能,建立两个完整的数据挖掘流程,执行数据挖掘任务,采用的是关联规则和聚类两种方法,并对结果进行分析讨论。数据库采用AlphaMiner软件自带。


2.1.  使用关联规则挖掘顾客消费习惯
2.1.1.  业务问题 
某超级市场的顾客在超市购买东西时,每次均购买很多不同的商品。超级市场将2005年6月与顾客的每次交易的详细信息保存在了Excel表中。为了分析顾客的消费习惯以便优化市场的结构,更好地为顾客服务,需要对顾客的交易进行分析。以便发现某个联合趋势。
这里使用关联规则来进行数据挖掘。


2.1.2. 挖掘过程
在AlpaMiner中新建名称为“消费习惯”的案例。
1)     数据理解
a)     添加文件数据。
添加“从文件中输入数据”模块,并选择Excel格式,浏览文件所在位置,并选择2005年6月的工作表。并将此模块运行,模块外框变为绿色。查看模块的结果
b)     数据探索
为了更好的理解数据,我们加入数据探索模块,并查看数据的分布情况和多变量结构图。从中可以看到顾客交易时购买的各种商品的统计和分析。
2)     数据预处理
    因为我们主要关心顾客购买时的总的商品之间的关系,所以对顾客的个人信息并不在挖掘范围内。因此需要对数据进行预处理。
a)     设置属性
添加设置属性模块,将顾客购买的商品的属性设置为使用,将其它属性信息设置为不使用,运行模块,并查看结果
b)     数据集可处理化
添加数据集可处理化作为设置属性的子模块, 将非事务格式的数据集转化为事务格式,也就是说形成数据挖掘的模型以便用于关联规则分析。该模块执行后,将生成三个类别型属性,分别是事务id、 项目id与属性值。
3)     数据建模
添加【关联规则】作为【数据集可处理化】的子模块,并设置关联规则。
此处将最小支持度设为15%,即在总的交易中出现15%即为频繁项目集而将最小置信度设为60%,以提高关联程度。运行后得到数据挖掘结果
2.1.3. 结果分析
结果显示购买花生、啤酒的人基本会买红酒;同样若买了红酒和啤酒的人 87%的人会买花生。买红酒和花生的人85.882%会买啤酒。这体现了15.767的交易中啤酒、红酒、花生具有高度的相关性。建议超市将花生放在酒类饮料的附近,以方便顾客的选购。


2.2. 使用聚类挖掘鸢尾花特征
2.2.1.  业务问题 

著名统计学家Fisher通过实践储存了150个的鸢尾花数据,每个鸢尾花有下述数据花瓣长(PETAL LENGTH)、花瓣宽(PETAL WIDTH)、花萼长(SEPAL LENGTH)、花萼宽(SEPAL WIDTH)。我们使用聚类的方法对鸢尾花特征进行分析。
2.2.2.  挖掘过程
在AlpaMiner中新建案例:鸢尾花特征分析
1)     数据理解
a)     添加文件数据
添加“从文件中输入数据”模块,并选择Attribute-Relation格式,浏览文件所在位置,并将此模块运行,模块外框变为绿色。
b)     多点图
为了更好的理解数据,我们加入多点图模块,并查看平行坐标图。由下图可以卡处 三个类关于花瓣宽度和花瓣长度分开得相当好,但关于萼片长度和萼片宽度分开得不太好。
2)     数据预处理
鸢尾花有是个特征:数据花瓣长(PETAL LENGTH)、花瓣宽(PETAL WIDTH)、花萼长(SEPAL LENGTH)、花萼宽(SEPAL WIDTH)。
a)            设置属性
添加设置属性模块,将鸢尾花的特征设置为使用,将其它属性信息设置为不使用,运行模块,并查看结果
3)     数据建模
添加【KMeans】作为【设置属性】的子模块,采用欧几里得距离,簇K的数量为3,迭代100次。运行后得到数据挖掘结果
2.2.3. 结果分析
结果显示鸢尾花数据基本上分三类,数据花瓣长(PETAL LENGTH)、花瓣宽(PETAL WIDTH)、花萼长(SEPAL LENGTH)、花萼宽(SEPAL WIDTH)这些特征基本上反映了类别的信息,并且每个类别的特征均有直观的显示。


3.  总结
本文利用AlphaMiner软件采用不同的方法对其自身的部分数据进行数据挖掘。数据虽然不复杂,但是麻雀虽小,五脏俱全,从中也体现了数据挖掘的全过程和商业智能的重要性。数据挖掘以及商业智能将越来越成为企业信息化所必不可少的一环。

 

作者:上海秀群信息技术有限公司项目总监 王法宝

 













© 2010-2012 Cherish Information Technology. All rights reserved.
沪ICP备05009269号
电 话:021-5657-5270    邮 箱:service@cherish.com.cn    地 址:上海市宝山区长江南路180号长江软件园C栋110-117室

友情链接:

 乐学院    复旦商业知识在线    每日乐英语    创意发声    中国彩色宝石网     圆周率品牌机构    
唐山松下产业机器    欧莱雅(中国)     上海市互联网经济咨询中心    中电投电力工程有限公司     文汇网    
上海教育新闻网    上海市软件测评中心