Python如何对Excel数据清洗?使用方法看这里

在使用python爬虫从网页抓取数据回来的时候经常会将其存储到Excel的表格文件中,但是存储进去数据很多都会存在格式不正确等问题 。下面这篇文章会详细讲解python中如何对Excel进行数据清洗的方法,一起往下看看吧 。
【Python如何对Excel数据清洗?使用方法看这里】

Python如何对Excel数据清洗?使用方法看这里

文章插图
一、什么是数据清洗
数据清洗就是将数据文本中的一些冗余的、无效的值给去除掉,例如空格、空值、数据的格式等等都是要被清洗掉的值 。
二、数据清洗方法
在python之中要对Excel表格文件进行数据清洗的话需要导入对其执行操作的库pandas,使用pandas进行数据清洗的方法有以下几种 。
1.使用drop_duplicates方法清楚一列中重复的值,多用于唯一性处理,示例如下
# 导入pandas库并读取Excel文件数据import pandas as pddf = pd.DataFrame(pd.read_excel('data.xlsx'))    # 括号内的data是文件路径和文件名# 从前往后的查找去除前面重复的值df[”ID”]. drop_duplicates()    # id是列的名称2.去除一个字段(某一列)中所有数据的空格,示例如下:
df['name'] = df['name'].map(str.strip)    # strip是字符串去除空格的方法3.去除数据表值所有存在在空值,例如None、空等,示例如下:
df.dropna(how='any')4.对某一个列中的具体值进行替换操作,多用于错误数据的更改,具体实例如下:
# 将name列中的包含Mary的单元格值替换为lisadf['name'].replace('Mary', 'Lisa')以上就是关于“Python如何对Excel数据清洗?使用方法看这里”的全部内容了,想要了解更多python的实用知识和代码示例可以在网页顶部栏目中找到python查看更多哦 。

    推荐阅读