Preview
导入pandas/numpy库之后,
先设定data(此例中data为titanic)
titanic=pd.read_csv('train.csv')1.缺失值观察
1.1是否有缺失值 #结果为TRUE代表有缺失值
data.isnull().any()
print(data.isnull().any())
titanic.isnull().any()1.2统计列缺失值个数
Data.isnull().sum()
Print(Data.isnull().sum())
titanic.isnull().sum()1.3统计个别列的缺失值数量/以age为例
df.Age #查看Age列数据#先看有没有缺失值?
titanic.Age.isnull().any() #查看特定列缺失值/true指有缺失值——故Age列有缺失值#缺失值是多少呢?
titanic.Age.isnull().sum()2.对缺失值进行处理
2.1 删除
#dropna
df.dropna(how=’all’) #删除全是缺失值的行/列 df.dropna(how=’any’) #删除含缺失值的行/列2.2 填充
#fillna
df.fillna(value=0)? #用0填充 df.fillna(method=’pad’) #向后填充:向下复制一样的值 df.fillna(method=’backfill’) #向前填充:向上复制一样的值3.重复值
3.1 查看重复值
df.duplicated() #查看全部 df.price.duplicated()? #查看price列 df.duplicated(subset = ['price','cnt'])? #查看多列3.2 处理重复值
df.drop_duplicates(subset = ['price','cnt'],keep='last',inplace=True)#subset限制特定列,否则默认全部列
#keep 保留
#inplace=true保留副本 inplace=false直接修改
4. 将前面清洗的数据保存为csv格式
titanic.to_csv('C:\\Users\\71403\\Desktop\\titanic\\train.csv',index=False,sep=',')
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。 |
标签: #pandas数据清洗 #PrintDataisnull