python爬虫抓取回来的数据一般都是html格式的,所以需要先将其输出查看一下才好进行相应的处理 。但有些时候输出出来的中文内容会变成乱码,取出来的数据也是乱码的 。那么下面这一篇文章就会来详细的讲解一下如何去解决爬虫抓取内容中文乱码的问题,一起看看吧 。
【Python爬虫抓取内容输出中文乱码怎么办?三行代码解决】
文章插图
python爬虫会直接的将一个网站的html结构和数据全部都抓取回来,如果在爬虫请求方法的参数之中没有设置编码字符集的话就会默认的按照python的编码格式进行处理 。那么对于还没有取到数据的爬虫程序来说可以在代码的顶部加上一个表示该程序为中文编码格式utf-8的注释,示例如下:
# -*- coding: UTF-8 -*-那么数据已经取到了也可以通过添加一个新的编码字符集在这个取到的数据结构之中就可以了,示例如下:
r = requests.get('http://www.xxxxxxxxxxxxxxx.html')r.encoding = r.apparent_encodingprint(r.text)上面代码示例的意思是将r这个html结构的数据使用utf-8的中文编码格式进行解码之后再输出,这样就不会出现中文乱码的问题 。
这两个方法都可以去解决爬虫抓取内容中文乱码的问题,但是最好还是需要配合来使用 。当编码字符集注释没有生效时就可以使用第二个解码的方法了 。
以上就是关于“Python爬虫抓取内容输出中文乱码怎么办?三行代码解决”的全部内容了,想要了解更多python的实用知识和代码示例可以持续关注这个频道,每次更新都会有很多新的知识技术分享给大家 。
推荐阅读
- Python怎么连接到mysql数据库?连接代码怎么写
- Python怎么计算列表元素个数?Python序列的元素数如何计算
- python一个数组六个数字如何分别调用?这两个方法你一定要知道
- 掌握爬虫技术需要学哪些内容?这篇文章教给你方法
- Python第三方库怎么升级?Python的库如何更新
- Python3.7的IDLE怎么测试源码?Python代码如何测试
- Python怎么删除列为空的行?这个方法简单实现
- 如何实现python中如何显示代码行数?这篇文章一定要看
- Python中divmod函数有什么用?Python函数divmod怎么用
- python怎么实现复数运算?这篇文章教你实现