品牌服装企业数据仓库的构建及数据挖掘设计
索剑
(惠州学院计算机科学系,广东 惠州 516007)
摘 要 分析了服装产品的特点和面向服装企业信息系统实现的特殊性,针对现有服装企业信息化建设过程中各事务子系统数据库信息集合问题,提出一种基于数据仓库的用于分析和决策的建设方案,设计了结合服装产品季节性、时尚性特点的数据仓库体系结构;探讨了数据挖掘设计实现的思想,分析了关联规则(Apriori算法)应用于款式订货的情况,并给出了实例。
关键词 服装企业;数据仓库;数据挖掘;关联规则
1 引言
服装行业被称为永不衰落的产业,是我国贸易顺差的主要来源。服装产品季节性、时尚性的特点决定了服装业是一个信息量大、对信息灵敏度要求高的行业。国外服装企业信息化管理相当普遍,而在我国,除了个别大型服装企业外,绝大多数服装企业的信息管理处于人工管理和计算机管理并存的局面。
品牌服装企业是我国未来服装行业发展的核心力量,通常它们在广大地域有众多的销售商,还有直属的专卖店,一方面面向客户进行销售,另一方面面向加工型企业组织生产。准确预测产品的市场符合度并努力减少库存是获取最大利润的基础。
目前,在国际上已获得成功的诸如H&M、ZARA等服装零售企业已逐渐进驻我国,其特点就是迅速获取时尚信息、迅速组织生产、针对地域市场店面每周都有新款上市。毋庸置疑,高超的管理技术、利用IT平台进行迅捷的信息传递以及对于地域市场产品需求的准确预测是成功的关键。
以下针对服装企业的特殊性,介绍品牌服装企业数据仓库构建的一种方法,并描述数据挖掘设计的思想。
2 面向服装企业信息系统的特殊性
相比其它行业,面向品牌服装企业的信息系统和信息化过程有很多特殊性,这里仅提及和文章主题有关的内容:
(1)产品具有时尚性,生产的季节性较强,要求企业对市场有准确预测能力、快速反应能力和大量信息处理能力。
(2)生产工艺流程环节较多,且存在多种变化的可能性,造成生产排期、物流管理灵活多变,较难规范。
(3)中小型企业众多,制造过程、产品种类、管理模式复杂多样,在其它行业实施成功的软件或实施模式很难直接用于服装企业。
(4)服装产品数据在高层次的重用性较小,数据的联系往往表现在服装产品的特殊性上,要求信息系统的数据表现要有更深的层次[1]。
(5)从这些特点能够看出,在企业的配合下,面向事务的数据库系统在一定程度上能够较好地处理销售、财务、客户管理等核心业务,而决策的支持则需要在数据库系统的基础上获取更多的与时尚和季节有关的诸如地域客户文化、款式细节关联、天气情况等等信息进行综合、归纳和挖掘。
3 数据仓库系统设计
数据仓库是实现商业智能的数据基础,是企业长期事务数据的准确汇总。构建数据仓库是用来满足战略决策的需要,其数据来自各种各类的面向事务的数据库。而创建多维数据模型需要明确物理数据的逻辑关系,才能很好地确定事实数据及其周围的分析专题,进而实现多维数据集的自动生成[2]。
根据品牌服装企业的特点,数据仓库的体系结构如图1所示。从图中可以看出,整个数据仓库的总体架构共分为数据源、ETL、数据仓库管理、数据分析以及信息展现5部分。
3.1 数据源及其数据结构
常见的面向事务的服装信息系统数据库很多,例如生产数据库、销售数据库、零售信息、财务数据等等,这些信息都可作为构建数据仓库的数据源。为了准确分析款式细节之间的关系,在款式设计部门中应补充设置款式细节描述的信息数据库(例如T恤的印花是在前面还是在后面,关节部位是否收省等等);除此之外若考虑其它季节、时尚因素诸如天气情况对销售和补货的影响还必须导入天气情况的历史数据、生成预测数据等。这些数据将被重新组织成面向主题的、一致的数据,被置入数据仓库之中。
3.2 ETL的设计
面向事务的服装数据源来自不同的系统,不同的数据平台,必须通过ETL技术将数据导入数据仓库中。ETL是整个项目中最花费时间、人力的,其主要完成的功能包括:异构数据的读取功能,包括文本数据、Web数据、DBMS中的数据等;数据的预处理功能,包括数据清理、集成、变换、归约等;数据加载功能,包括数据的写入、更新,元数据的管理等。对从多个不同业务数据库所抽取的数据,进行数据项名称、位数、编码和形式的统一,消除重复数据。此外还需考虑数据仓库的增量维护问题[3]。

3.3 数据仓库管理
数据仓库实现对预测主题和信息的存储与综合,以一个事实表和若干维表构成。预测执行完成后的结果存储在数据仓库中,形成决策信息库。如将款式细节数据存入到数据仓库中,和将面向服装产品销售的数据(销售的地域、客户、销售情况)进行综合分析,得出最优销售的款式特征。数据集市是面向不同用户和特定条件决策服务在数据仓库的基础上产生的,数据仓库成为数据源和直接面对决策支持过程的数据集市之间的缓冲界面。
3.3.1 分析主题的确定与事实表的定义
多维数据模型是围绕中心主题的,该主题则是用事实表表示。事实表包括事实的名称和度量以及每个相关维表的关键字。本文基于数据源中物理数据存储结构,以及对于表现如何获取品牌服装企业利润最大化信息业务与分析的需求,确定将销售情况(SalesFact)作为事实数据表。所分析的维度包括:
时间(TimeDim):时间维是数据仓库应用中的常用维度,本模型中的时间维采用日、周、月、季和年;
经销商(BranchDim):用于描述经销商情况,以Branch_type区别直属店面、经销商和加盟商等;
款式(StyleDim):用于描述成品款式信息,以Style_type区分产品所述各种类别,如T恤、牛仔短裤、皮包、长统靴等,以StyleDetail区分款式细节特征;
销售区域(LocationDim):用于描述销售区域信息。
由于服装销售人员流动性很大,从实际情况来看意义不大,这里没有考虑销售人员情况。
3.3.2 多维数据模型的创建
多维模型常见的有星形模式(Star-Schema)、雪花模式(Snow-flake Schema)。星形模型包括一个大的包含大批数据和不含冗余的事实表和一组小的维表,这些表的规范化程度较低,但却拥有较高的查询效率;雪花模型是星形模型的变种,其中某些表是规范化的,因而把数据进一步分解到附加的表中。雪花模式易于维护并节省存储空间,但是当执行查询操作时需要更多的连接操作,可能降低浏览的性能[4]。服装数据仓库采用星形模型,如图2所展示的事实表及各纬度、各粒度。
3.3.3 在Analysis Services中实现多维数据模型
在Business Intelligence Development Studio 中创建一个新的 Analysis Services项目。之后创建“数据源”并将其与源数据库LDB建立连接,然后确定多维数据集的存储方式。
3.4 数据分析
数据分析层运用数据挖掘、OLAP工具从数据仓库中获得决策信息。OLAP(联机分析处理)与DM(数据挖掘)都是数据库(数据仓库)的分析工具,OLAP通过提供给用户从多种角度和多种层次,快速、稳定、交互地存取数据,深入观察数据,实现基于数据分析、统计、查询和服务等技术。数据挖掘(Data Mining)是利用非平凡的方法从海量的数据中抽取出潜在的、有价值的知识(模型或规则)的过程。
SQL Server 2005 Analysis Services提供了一组基于数据仓库的数据挖掘解决方案,强调从数据库中发现知识(Knowledge Discovery in Database,KDD),即数据驱动的知识发现的过程。BI系统已经在分析服务(Analysis Services)中集成了现在比较流行的各种数据挖掘算法。
3.5 信息展现
这一层次的任务通过和用户的交互,根据用户提出的要求反馈综合、归纳、挖掘出的信息。目前绝大多数应用系统都采用了B/S结构,Web服务器转接数据库(数据仓库)的数据,通过WWW 浏览器为用户呈现信息。由于特定情况或早先进行信息化的服装企业也可通过C/S结构的应用呈现信息。
4 数据挖掘设计分析
SQLServer2005中包含了多种有效的数据挖掘算法:Decision Trees(决策树)Naïve Bayes(贝叶斯算法)Clustering(聚类分析)Association(关联规则)Sequence Clustering(顺序群集)Time series(时间序列)Neural Net(神经网络)以及回归树和文本挖掘等算法[5],用户还可以加入自己需要的算法。
这里以Association(关联规则)为例介绍系统数据挖掘的设计。Association(关联规则)基于Apriori算法,它为在大型数据集中查找多路关联提供了一种有效的方法。Association算法在数据库所有事务中循环,在单一用户事务中查找最有可能同时出现的项目。关联的项目被分到一起,放入项目集中,生成可用于预测的规则。
表1为某服装公司一天20个订单情况,项目以款号标识。
表1 款号事务样本
|
事务
|
项目
|
事务
|
项目
|
|
T1
|
A4380
|
T11
|
C5390
|
|
T2
|
B3923,B4358,C5390
|
T12
|
A4380,A7562,B3923,B4358,C5390
|
|
T3
|
A7562,C5390
|
T13
|
A7562,B3923,B4031,C5390
|
|
T4
|
A7562,B3923,C5390
|
T14
|
B3923,B4358,C5390
|
|
T5
|
A7562,B4031
|
T15
|
A7562,C5390
|
|
T6
|
B3923,C5390
|
T16
|
B4358,C5390
|
|
T7
|
A7562,B4358
|
T17
|
A4380,A7562,B4358
|
|
T8
|
A7562,B3923,B4031,C5390
|
T18
|
A7562,B3923,B4031,C5390
|
|
T9
|
A7562
|
T19
|
A7562
|
|
T10
|
A7562,B3923,C5390
|
T20
|
A7562,B3923,B4031,C5390
|
求频繁集算法描述如下:
输入:
I //项目集合
D //事务数据库
s //支持度
输出:
L //频繁集
Appiori算法:
k = 0; //扫描次数
L = Φ;
C1 = I; //初始的侯选设置为单个项目
repeat
k = k + 1;
Lk = Φ;
for each Ii ∈ Ck do Ci = 0;
for each tj ∈ D do
for each Ii ∈ Ck do
if Ii ∈ tj then Ci = Ci + 1
for each Ii ∈ Ck do
if Ci ≧(s ×∣D∣) then Lk = Lk∪Ii;
L = L Lk;
Ck+1 = Apriori-Gen(Lk) //通过大小为i-1的频繁集,求出大小为i的侯选集
Until Ck+1 =Φ;
针对表1提出的款号事务样本,根据以上算法每次完成的候选集和频繁集如表2所示。
表2 候选集与频繁集示例
|
扫描
|
候选集
|
频繁集
|
|
1
|
{A4380},{A7562},{B3923},{B4031},{B4358},{ C5390}
|
{A7562},{B3923},{B4031},{B4358},{ C5390}
|
|
2
|
{A7562,B3923},{A7562,B4031},{A7562,B4358},{A7562,C5390},
{B3923,B4031},{B3923,B4358},{B3923,C5390},
{B4031,B4358},{B4031,C5390}
{B4358,C5390}
|
{A7562,B3923},{A7562,B4031},{A7562,C5390},
{B3923,B4031},{B3923,C5390},
{B4031,C5390}
{B4358,C5390}
|
|
3
|
{A7562,B3923,B4031},{A7562,B3923,C5390},
{A7562,B4031,C5390},{A7562,B4358,C5390},
{B3923,B4031,C5390},{B3923,B4358,C5390},
{B4031,B4358,C5390}
|
{A7562,B3923,B4031},{A7562,B3923,C5390},
{A7562,B4031,C5390},
{B3923,B4031,C5390}
|
|
4
|
{A7562,B3923,B4031,C5390}
|
{A7562,B3923,B4031,C5390}
|
|
5
|
Φ
|
Φ
|
由频繁集根据最小置信度(min_conf)求关联规则相对简单。关联规则产生基于两点:对于每个频繁集L,产生L的所有非空子集;对于L的每一个非空子集S,若∣L∣/∣Smin_conf,则输出规则S→L- S。
关联规则的挖掘可以发现客户订货时确定的款式相关情况。企业可根据客户的订货情况以及款式相关度,确定近期可能的补货情况,进而做好生产准备。
系统还选择了诸如利用决策树对货品配送的区域以及利用关联规则对款式细节进行挖掘和分析等,这里不再赘述。
数据挖掘技术在服装行业中的应用还有很多值得探讨的问题,例如天气情况对服装产品销售的影响。如下雨天,消费者一般会选择呆在家中,外出购物情况减少;夏日高温天气,消费者会选者购买吸湿透气性好的衣服等。但是服装产品季节性、时尚性极强,若等终极消费者的信息反馈到企业后再组织生产,已无法获得最大利润,甚至有可能积压库存。事实上,有少数服装企业已开始和气象部门合作,提前获得气象变化信息,在分析历史气象因素和产品销售的关联以及气象预测的基础上,作为企业产品备料、补货的决策依据,这样更有利于企业商品安排和销售调整。
5 结束语
从我国目前的发展情况来看,服装企业的信息化道路还很漫长。服装企业信息化和服装产品的时尚性、季节性以及促销手段等息息相关。建立数据仓库,使用OLAP、数据挖掘技术等技术进行决策支持是提高市场反应速度,减少库存,获得最大利润的必然途径。
参考文献
[1]索剑. 针织服装企业物料管理系统设计与开发. 微计算机信息. 2007,18:21-23
[2] (美)伊蒙著 王志海等译.数据仓库(第3版).机械工业出版社,2003.3
[3] 张旭峰,ETL若干关键技术研究[D],上海:复旦大学,2006
[4] 李泽海,数据仓库中多维数据处理与查询相关技术的研究[D],吉林:吉林大学,2005
[5] Seth Paul,Jamie MacLennan,Zhaohui Tang,et al. Data Mining Tutorial. Microsoft Corporation. June 2005.6
收稿日期:10月30日 修改日期:2009年1月9日
基金项目:惠州市科技计划项目(A5070205)
作者简介:索剑(1971-),男,陕西西安市户县,讲师,硕士,主要研究方向:数据库、数据仓库、企业信息化。
|