博客
关于我
chapter.数据清洗1.2
阅读量:517 次
发布时间:2019-03-07

本文共 2318 字,大约阅读时间需要 7 分钟。

1.3填充缺失值

当数据量不够或者其他部分信息很重要的时候,就不能删除数据了,这时需要对缺失值进行填充,通过fillna方法可以将缺失值替换为常数值。
例:

import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom IPython.display import displaydata=DataFrame(np.arange(12).reshape(3,4))display(data)#对数据进行处理,即创建一些为缺失值的数据data.loc[1,:]=np.nandata[2]=np.nandisplay(data)

在这里插入图片描述

使用fillna方法填充

import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom IPython.display import displaydata=DataFrame(np.arange(12).reshape(3,4))display(data)#对数据进行处理,即创建一些为缺失值的数据data.loc[1,:]=np.nandata[2]=np.nandisplay(data)data.fillna(0)#全部填充为0

在这里插入图片描述

当然在fillna中传入字典结构数据,可以针对不同列填充不同的值,fillna返回的是新对象,不会对原数据进行修改,可通过inplace就地进行修改。
例:

import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom IPython.display import displaydata=DataFrame(np.arange(12).reshape(3,4))display(data)#对数据进行处理,即创建一些为缺失值的数据data.loc[1,:]=np.nandata[2]=np.nandisplay(data)data.fillna({   1:6,3:0})

在这里插入图片描述

还可以通过平均值来作为填充数

import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom IPython.display import displaydata=DataFrame(np.arange(12).reshape(3,4))display(data)#对数据进行处理,即创建一些为缺失值的数据data.loc[1,:]=np.nandata[2]=np.nandisplay(data)data.fillna(method='ffill')

在这里插入图片描述

2.移除重复数据
在爬取的数据中往往会出现重复数据,对于重复数据保留一份即可,其余可以移除,在DataFrame数据中,通过duplicated方法判断各行是否有重复数据。

data=DataFrame({       '姓名':['小敏','晓明','小强','小红','晓明'],    '年龄':['女','男','男','女','男'],    '地址':['北京','南京','上海','广州','南京']})
import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom IPython.display import displaydata=DataFrame({       '姓名':['小敏','晓明','小强','小红','晓明'],    '年龄':['女','男','男','女','男'],    '地址':['北京','南京','上海','广州','南京']})display(data)data.duplicated()

在这里插入图片描述

通过drop_duplicates方法,可以删除多余的重复项

import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom IPython.display import displaydata=DataFrame({       '姓名':['小敏','晓明','小强','小红','晓明'],    '年龄':['女','男','男','女','男'],    '地址':['北京','南京','上海','广州','南京']})display(data)data.drop_duplicates()

在这里插入图片描述

很显然这种情况下当每行的每个字段都相同时才会判断出为重复,这时可以通过指定部分作为判断重复项的依据。

import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom IPython.display import displaydata=DataFrame({       '姓名':['小敏','晓明','小强','小红','晓明'],    '年龄':['女','男','男','女','男'],    '地址':['北京','南京','上海','广州','南京']})display(data)data.drop_duplicates('年龄')

在这里插入图片描述

从结果可以看出,保留的数据为第一次出现的组合。传入keep=‘last’可以保留最后一个。

转载地址:http://hrynz.baihongyu.com/

你可能感兴趣的文章
Nginx下配置codeigniter框架方法
查看>>
Nginx中使用expires指令实现配置浏览器缓存
查看>>
Nginx之二:nginx.conf简单配置(参数详解)
查看>>
Nginx代理websocket配置(解决websocket异常断开连接tcp连接不断问题)
查看>>
Nginx代理初探
查看>>
nginx代理地图服务--离线部署地图服务(地图数据篇.4)
查看>>
Nginx代理外网映射
查看>>
Nginx代理模式下 log-format 获取客户端真实IP
查看>>
Nginx代理解决跨域问题(导致图片只能预览不能下载)
查看>>
Nginx代理访问提示ERR_CONTENT_LENGTH_MISMATCH
查看>>
Nginx代理配置详解
查看>>
Nginx代理静态资源(gis瓦片图片)实现非固定ip的url适配网络环境映射ip下的资源请求解决方案
查看>>
Nginx代理静态资源(gis瓦片图片)实现非固定ip的url适配网络环境映射ip下的资源请求解决方案
查看>>
nginx反向代理
查看>>
Nginx反向代理
查看>>
nginx反向代理、文件批量改名及统计ip访问量等精髓总结
查看>>
Nginx反向代理与正向代理配置
查看>>
Nginx反向代理及负载均衡实现过程部署
查看>>
Nginx反向代理是什么意思?如何配置Nginx反向代理?
查看>>
nginx反向代理解决跨域问题,使本地调试更方便
查看>>