如何利用Python提取pdf中的表格数据(附实战案例)

时间:2022-11-12 艾派森人气:0

前言

今天给大家介绍一个Python使用工具，那就是从pdf文件中读取表格数据，主要用到第三方库 pdfplumber。

pdfplumber简介

pdfplumber是一款基于pdfminer，完全由python开发的pdf文档解析库，不仅可以获取每个字符、矩形框、线等对象的具体信息，而且还可以抽取文本和表格。目前pdfplumber仅支持可编辑的pdf文档。

虽然pdfminer也可以对可编辑的pdf文档进行解析，但是比较而言，pdfplumber有以下优势：

二者都可以获取到每个字符、矩形框、线等对象的具体信息，但是pdfplumber在pdfminer的基础上进行了封装和处理，使得到的对象更易于使用，对用户更友好。
二者都能对文本解析，但是pdfminer输出的文本在布局上可能与原文差别比较大，但是pdfplumber抽取出的文本与原文可以有更高的一致性。
pdfplumber实现了表格抽取逻辑，基于最基本的字符、线框等对象的位置信息，定位、识别pdf文档中的表格。

首先安装

pip install pdfplumber

实战案例

本次实战，我们需要将pdf中的获奖队伍信息提取出来，然后保存到excel表格中。

原始pdf文件中大多数都是如上图所示的表格，这里为了不泄露个人隐私，我就先打上码了哈。

接着开始敲代码提取表格数据！

import pandas as pd
import pdfplumber
 
pdf = pdfplumber.open("第十届“正大杯”国奖名单.pdf")
df = pd.DataFrame()
for i in range(3,53):  # 这里3是指表格信息是从第4页开始的(程序计数是从0开始,所以这里第4页对应程序中的3)，53是结束位置
    page = pdf.pages[i]  # 读取pdf中的每一页
    table = page.extract_table()  # 从页数据中提取表格数据
    df = df.append(table)  # 将提取的数据转换为DataFrame二维表格形式
df.drop_duplicates(inplace=True)   # 删除重复值
df.to_excel("第十届“正大杯”国奖名单.xlsx", header=False, index=False)  # 将提取的数据保存为excel

这里，我先是用了循环来提取多页，3是指表格信息是从第4页开始的(程序计数是从0开始,所以这里第4页对应程序中的3)，53是结束位置。

运行之后的结果如下：

很简单就将pdf中的表格提取出来了。

做到这里，我只是将一个pdf中的数据提取出来了，可是还有几个类似的pdf需要提取，于是我将上述代码功能进行了简单的封装（功能还比较简陋，各位可根据自己的需要进行扩展）。

def pdf_to_excel(file_path,start:int,end:int,excel_name=None):
    '''
    params:
        file_path：需要提取表格的pdf文件的绝对路径
        start：出现表格的起始页码
        end：表格结束页码
        excel_name：最后保存excel文件的文件名(默认为原始pdf文件名)
    '''
    pdf = pdfplumber.open(file_path)
    if not excel_name:
        excel_name = file_path.split('\\')[-1].split('.')[0]
    df_result = pd.DataFrame()
    for i in range(start-1,end):
        page = pdf.pages[i]
        table = page.extract_table()
        df_result = df_result.append(table)
    df_result = df_result.drop_duplicates(inplace=True)
    df_result.to_excel(excel_name+'.xlsx',index=False)
 
pdf_to_excel(file_path=r'C:xxx.pdf',start=4,end=53)

以上就是本次分享的python小工具，希望对有同样需求的你有所帮助！

加载全部内容