Python爬虫抓取内容输出中文乱码怎么办?三行代码解决

python爬虫抓取回来的数据一般都是html格式的,所以需要先将其输出查看一下才好进行相应的处理 。但有些时候输出出来的中文内容会变成乱码,取出来的数据也是乱码的 。那么下面这一篇文章就会来详细的讲解一下如何去解决爬虫抓取内容中文乱码的问题,一起看看吧 。
【Python爬虫抓取内容输出中文乱码怎么办?三行代码解决】

Python爬虫抓取内容输出中文乱码怎么办?三行代码解决

文章插图
python爬虫会直接的将一个网站的html结构和数据全部都抓取回来,如果在爬虫请求方法的参数之中没有设置编码字符集的话就会默认的按照python的编码格式进行处理 。那么对于还没有取到数据的爬虫程序来说可以在代码的顶部加上一个表示该程序为中文编码格式utf-8的注释,示例如下:
# -*- coding: UTF-8 -*-那么数据已经取到了也可以通过添加一个新的编码字符集在这个取到的数据结构之中就可以了,示例如下:
r = requests.get('http://www.xxxxxxxxxxxxxxx.html')r.encoding = r.apparent_encodingprint(r.text)上面代码示例的意思是将r这个html结构的数据使用utf-8的中文编码格式进行解码之后再输出,这样就不会出现中文乱码的问题 。
这两个方法都可以去解决爬虫抓取内容中文乱码的问题,但是最好还是需要配合来使用 。当编码字符集注释没有生效时就可以使用第二个解码的方法了 。
以上就是关于“Python爬虫抓取内容输出中文乱码怎么办?三行代码解决”的全部内容了,想要了解更多python的实用知识和代码示例可以持续关注这个频道,每次更新都会有很多新的知识技术分享给大家 。

    推荐阅读