Python怎么将网页转为PDF文档?Python如何将HTML文件转PDF类型

python爬虫程序能够将一个网页的源码直接爬取返回,那么对于这些返回数据的处理方式有很多种 。再不改变数据格式的情况下,可以直接将其转为PDF文档来进行页面还原查看 。下文将要来介绍的内容就是python将网页和HTML文档转为PDF格式的方法,感兴趣的小伙伴可以学习一下 。

Python怎么将网页转为PDF文档?Python如何将HTML文件转PDF类型

文章插图
一、安装库
python中对于pdf类型文件的任意操作都是需要通过第三方库来完成的,而所需要安装的库有两个,分别为wkhtmltopdf以及pdfkit 。而后者是对于前者的再封装处理,所以需要先安装好wkhtmltopdf才可以 。换成国内源之后再去安装,这样就能提高下载速度了,命令如下所示:
pip install wkhtmltopdf -i https://pypi.tuna.tsinghua.edu.cn/simplepip install pdfkit -i https://pypi.tuna.tsinghua.edu.cn/simple二、网页转PDF
那么网页都是通过url链接在浏览器上面打开才可以进去的,而使用pdfkit这个第三方库能够在不爬取数据的情况下,直接的从链接上将其下载后转为PDF文档 。那么首先导入模块之后所要做的事情就是读取wkhtmltopdf.exe路径的文件之后实例化对象,再调用form方法就可以把一个url链接的网页直接转为PDF文档,代码示例如下所示:
import pdfkitconfig = pdfkit.configuration(wkhtmltopdf=r"D:\bin\wkhtmltopdf.exe")pdfkit.from_url(r'https://blog.csdn.net/1.pdf', configuration=config)二、HTML文档转PDF
那么html文档转为pdf类型实际上使用到的还是这个exe程序,只不过调用的方法换成了from_file(),并且需要传入一个html类型的文件路径才可以 。而且还需要重新为转换之后的文档进行命名,代码示例如下所示:
import pdfkitconfig = pdfkit.configuration(wkhtmltopdf=r"D:\bin\wkhtmltopdf.exe")pdfkit.from_file(r'D:\2.html, '3.pdf', configuration=config)【Python怎么将网页转为PDF文档?Python如何将HTML文件转PDF类型】以上就是关于“Python怎么将网页转为PDF文档?Python如何将HTML文件转PDF类型”的全部内容了,希望对你有所帮助 。

    推荐阅读