Python中missingno如何使用

本篇文章给大家分享的是有关Python中missingno如何使用,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

创新互联建站专业为企业提供石鼓网站建设、石鼓做网站、石鼓网站设计、石鼓网站制作等企业网站建设、网页设计与制作、石鼓企业网站模板建站服务,10多年石鼓做网站经验,不只是建网站,更提供有价值的思路和整体网络服务。

安装及引用

pip install missingno
import missingno as msno
 

missingno一般配合numpy和pandas一起使用:

import numpy as np
import pandas as pd
 

案例中还会用到quilt,这是一个数据包管理器,可以让你像管理代码一样管理数据,anaconda没有内置,所以需要安装一下。Python中missingno如何使用

 

导入数据

from quilt.data.ResidentMario import missingno_data
collisions = missingno_data.nyc_collision_factors()
collisions = collisions.replace("nan", np.nan)

## 绘制缺失值矩阵图
msno.matrix无效矩阵是一个数据密集的显示,它可以快速直观地看出数据完整度。  
msno.matrix(collisions.sample(250))
 

Python中missingno如何使用空白越多说明缺失越严重

右侧的迷你图概述了数据完整性的一般形状,并指出了数据集中具有最大和最小无效值的行数。需要说明的是,这个矩阵图最多容纳50个变量,超过此范围的标签开始重叠或变得不可读,默认情况下,大尺寸显示器会忽略它们。

如果要处理时间序列数据,则可以使用关键字参数指定周期性freq:

null_pattern = (np.random.random(1000).reshape((50, 20)) > 0.5).astype(bool)  
null_pattern = pd.DataFrame(null_pattern).replace({False: None})  
msno.matrix(null_pattern.set_index(pd.period_range('1/1/2011', '2/1/2015', freq='M')) , freq='BQ')

![](https://my-wechat.oss-cn-beijing.aliyuncs.com/image_20200403162803.png)
     

绘制缺失值条形图

条形图提供与矩阵图相同的信息,但格式更简单。msno.bar(collisions.sample(1000))Python中missingno如何使用

 

绘制缺失值热力图

missingno相关性热力图可以显示无效的相关性:一个变量的存在或不存在如何强烈影响的另一个的存在。
数值为1:两个变量一个缺失另一个必缺失;
数值为-1:一个变量缺失另一个变量必然不缺失。
数值为0:变量缺失值出现或不出现彼此没有影响。
热力图非常适合于选择变量对之间的数据完整性关系,但是当涉及到较大的关系时,其解释力有限,并且它不特别支持超大型数据集。

注:始终为满或始终为空的变量没有任何有意义的关联,因此会从可视化中删除。

msno.heatmap(collisions)
 
Python中missingno如何使用  
 

缺失值树状图

通过树状图,可以更全面地观察缺失变量的关联性,揭示比关联热力图更深刻的相关关系:
msno.dendrogram(collisions)

Python中missingno如何使用  

以上就是Python中missingno如何使用,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注创新互联行业资讯频道。


标题名称:Python中missingno如何使用
标题URL:http://scyanting.com/article/pghpso.html