python爬虫程序能够将一个网页的源码直接爬取返回,那么对于这些返回数据的处理方式有很多种 。再不改变数据格式的情况下,可以直接将其转为PDF文档来进行页面还原查看 。下文将要来介绍的内容就是python将网页和HTML文档转为PDF格式的方法,感兴趣的小伙伴可以学习一下 。
文章插图
一、安装库
python中对于pdf类型文件的任意操作都是需要通过第三方库来完成的,而所需要安装的库有两个,分别为wkhtmltopdf以及pdfkit 。而后者是对于前者的再封装处理,所以需要先安装好wkhtmltopdf才可以 。换成国内源之后再去安装,这样就能提高下载速度了,命令如下所示:
pip install wkhtmltopdf -i https://pypi.tuna.tsinghua.edu.cn/simplepip install pdfkit -i https://pypi.tuna.tsinghua.edu.cn/simple二、网页转PDF
那么网页都是通过url链接在浏览器上面打开才可以进去的,而使用pdfkit这个第三方库能够在不爬取数据的情况下,直接的从链接上将其下载后转为PDF文档 。那么首先导入模块之后所要做的事情就是读取wkhtmltopdf.exe路径的文件之后实例化对象,再调用form方法就可以把一个url链接的网页直接转为PDF文档,代码示例如下所示:
import pdfkitconfig = pdfkit.configuration(wkhtmltopdf=r"D:\bin\wkhtmltopdf.exe")pdfkit.from_url(r'https://blog.csdn.net/1.pdf', configuration=config)二、HTML文档转PDF
那么html文档转为pdf类型实际上使用到的还是这个exe程序,只不过调用的方法换成了from_file(),并且需要传入一个html类型的文件路径才可以 。而且还需要重新为转换之后的文档进行命名,代码示例如下所示:
import pdfkitconfig = pdfkit.configuration(wkhtmltopdf=r"D:\bin\wkhtmltopdf.exe")pdfkit.from_file(r'D:\2.html, '3.pdf', configuration=config)【Python怎么将网页转为PDF文档?Python如何将HTML文件转PDF类型】以上就是关于“Python怎么将网页转为PDF文档?Python如何将HTML文件转PDF类型”的全部内容了,希望对你有所帮助 。
推荐阅读
- 呼和浩特的蓝海学校怎么样?
- Python如何自动导入方法所在的库?Python用一行代码导入所有库
- Python怎么自动安装第三方库?Python如何实现库和包自动下载安装
- Python黑白图片上色如何实现?Python怎么实现照片上色功能
- Scrapy爬虫项目怎么部署到服务器?Python爬虫程序Scrapy服务器如何部署
- Pycharm怎么远程连接服务器?Pycharm如何配置远程连接
- 使用Anaconda如何导入Python模块库?Anaconda导入模块库的方法
- 呼啦圈怎么转?为什么老是掉?
- 从呼和浩特站怎么去武川县?
- 口袋奇兵怎么无限钻石 口袋奇兵如何无限钻石