在使用python爬虫从网页抓取数据回来的时候经常会将其存储到Excel的表格文件中,但是存储进去数据很多都会存在格式不正确等问题 。下面这篇文章会详细讲解python中如何对Excel进行数据清洗的方法,一起往下看看吧 。
【Python如何对Excel数据清洗?使用方法看这里】
文章插图
一、什么是数据清洗
数据清洗就是将数据文本中的一些冗余的、无效的值给去除掉,例如空格、空值、数据的格式等等都是要被清洗掉的值 。
二、数据清洗方法
在python之中要对Excel表格文件进行数据清洗的话需要导入对其执行操作的库pandas,使用pandas进行数据清洗的方法有以下几种 。
1.使用drop_duplicates方法清楚一列中重复的值,多用于唯一性处理,示例如下
# 导入pandas库并读取Excel文件数据import pandas as pddf = pd.DataFrame(pd.read_excel('data.xlsx')) # 括号内的data是文件路径和文件名# 从前往后的查找去除前面重复的值df[”ID”]. drop_duplicates() # id是列的名称2.去除一个字段(某一列)中所有数据的空格,示例如下:
df['name'] = df['name'].map(str.strip) # strip是字符串去除空格的方法3.去除数据表值所有存在在空值,例如None、空等,示例如下:
df.dropna(how='any')4.对某一个列中的具体值进行替换操作,多用于错误数据的更改,具体实例如下:
# 将name列中的包含Mary的单元格值替换为lisadf['name'].replace('Mary', 'Lisa')以上就是关于“Python如何对Excel数据清洗?使用方法看这里”的全部内容了,想要了解更多python的实用知识和代码示例可以在网页顶部栏目中找到python查看更多哦 。
推荐阅读
- python中怎么将列表的数据清空?python列表清空方法
- python单引号和双引号、三引号的区别是什么?详细解析看这篇
- python中怎么删除列表中的元素?python列表元素删除方法
- Python中return的用法是什么?python的yeild语句解析
- python如何生成exe文件?python源码打包教程
- Python怎样重命名文件?python重命名方法
- 快手播放量有收益吗?如何赚钱?
- 短视频教学是真的吗?短视频如何才能拍好?
- 抖音注册蓝v需要什么资料?有什么好处?
- 淘宝直播轮播条设置了没有反应怎么回事?