Python 办公自动化之 PDF 的详细操作
今天的具体内容将会从以下几个小节展开:
相关介绍批量拆分批量合并提取文字内容提起表格内容提起图片内容转换为PDF图片添加水印加密与解码
上述操作比较常用,也可以解决较多的办公内容,下面直接开始本节内容:
1. 相关介绍
Python 操作 PDF 会用到两个库,分别是:PyPDF2 和 pdfplumber。
其中 PyPDF2 可以更好的读取、写入、分割、合并PDF文件,而 pdfplumber 可以更好的读取 PDF 文件中内容和提取 PDF 中的表格。
对应的官网分别是:
PyPDF2:https://pythonhosted.org/PyPDF2/pdfplumber:https://github.com/jsvine/pdfplumber
由于这两个库都不是 Python 的标准库,所以在使用之前都需要单独安装。
win r 后输入 cmd 打开 command 窗口,依次输入如下命令进行安装:
pip install PyPDF2pip install pdfplumber
安装完成后显示 success 则表示安装成功。
2. 批量拆分
将一个完整的 PDF 拆分成几个小的 PDF,因为主要涉及到 PDF 整体的操作,所以本小节需要用到 PyPDF2 这个库。
拆分的大概思路如下:
读取 PDF 的整体信息、总页数等遍历每一页内容,以每个 step 为间隔将 PDF 存成每一个小的文件块将小的文件块重新保存为新的 PDF 文件
需要注意的是,在拆分的过程中,可以手动设置间隔,例如:每5页保存成一个小的 PDF 文件。
拆分的代码如下:
import os
from PyPDF2 import PdfFileWriter, PdfFileReader
def split_pdf(filename, filepath, save_dirpath, step=5):
"""
拆分PDF为多个小的PDF文件,
@param filename:文件名
@param filepath:文件路径
@param save_dirpath:保存小的PDF的文件路径
@param step: 每step间隔的页面生成一个文件,例如step=5,表示0-4页、5-9页...为一个文件
@return:
"""
if not os.path.exists(save_dirpath):
os.mkdir(save_dirpath)
pdf_reader = PdfFileReader(filepath)
# 读取每一页的数据
pages = pdf_reader.getNumPages()
for page in range(0, pages, step):
pdf_writer = PdfFileWriter()
# 拆分pdf,每 step 页的拆分为一个文件
for index in range(page, page step):
if index