数据挖掘笔记:关联规则-创新互联

什么是关联规则

从那个尿布和啤酒的故事中不难看出,虽然是两个完全不相关的事物之间也可能存在一定的关系——这也就是所谓的关联规则;

成都创新互联公司坚持“要么做到,要么别承诺”的工作理念,服务领域包括:网站建设、网站设计、企业官网、英文网站、手机端网站、网站推广等服务,满足客户于互联网时代的抚顺县网站设计、移动媒体设计的需求,帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴!
  • 关联规则:反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。

    根据上述规则,下面给出个例子:


    关联规则的强度可以用它的支持度和置信度度量。可以看到,面包和黄油一起的关系在所有组合中支持度最高;

支持度和置信度
  • 关联规则的支持度:支持度是一种重要度量,因为支持度很低的规则可能只是偶然出现,从商务角度来看,低支持度的规则多半也不是令人感兴趣的,因为对顾客很少同时购买的商品进行促销可能并无益处。因此,支持度通常用来删除那些不令人感兴趣的规则;

  • 关联规则的置信度:置信度通过规则进行推理的可靠性。对于给定的规则 X —>Y,置信度越高,Y 在包含 X 的事务中出现的可能性就越大;

  • 提升度:提升度代表的是“商品 A 的出现,对商品 B 的出现概率提升的”程度。计算公式如下:提升度 (A→B)=置信度 (A→B)/ 支持度 (B)
    所以提升度有三种可能:
    (1)提升度 (A→B)>1:代表有提升;
    (2)提升度 (A→B)=1:代表有没有提升,也没有下降;
    (3)提升度 (A→B)<1:代表有下降。


先验原理
  • 简介:如果一个项集是频繁的,则它的所有子集一定也是频繁的。相反,如果一个项集是非频繁的,则它所有的超集也是非频繁的;
  • 支持度的反单调性(anti-monotone):一个项集的支持度绝不会超过它的子集的支持度;
    基于此原理,我们就能对项集进行 基于支持度的剪枝(support-based pruning),不用计算支持度就能删除掉某些非频繁项集——>

Apriori算法
  • 主要步骤:
  1. K=1,计算 K 项集的支持度(也就是各自为集);
  2. 筛选掉小于最小支持度的项集;
  3. 如果项集为空,则对应 K-1 项集的结果为最终结果。
    否则 K=K+1,重复 1-3 步。
  • 缺点:
  1. 可能产生大量的候选集,因为采用排列组合的方式,把可能的项集都组合出来了;
  2. 每次计算都需要重新扫描数据集,来计算每个项集的支持度;

你是否还在寻找稳定的海外服务器提供商?创新互联www.cdcxhl.cn海外机房具备T级流量清洗系统配攻击溯源,准确流量调度确保服务器高可用性,企业级服务器适合批量采购,新人活动首月15元起,快前往官网查看详情吧


当前标题:数据挖掘笔记:关联规则-创新互联
网页网址:http://scyanting.com/article/csphhe.html