Skip to content

BeHappy0o0o0o0/pdf_information_extraction

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 

Repository files navigation

pdf_information_extraction

提取非扫描版pdf表格信息的py3脚本

介绍

脚本使用camelot完成,目前可以提取简单的表格信息,返回字典,并在脚本目录创建每页对应的json文件。

使用方式

脚本支持对单一文件或目录下所有pdf文件表格信息的提取,在运行脚本后根据提示输入pdf文件/目录所在路径。
如果只需要提取某一页的pdf表格,需要在pdf文件名中增加_数字,数字代表需要提取表格的页码,会提取当前页的所有表格。

下面的例子将提取pdf12125页所包含的表格信息。

pdfname_12_125.pdf

如果需要提取所有表格信息,需要避免文件名包含_数字的形式。

计划

1:解决对pdf文本信息的提取

相关资料

Camelot: PDF Table Extraction for Humans
python操作pdf

开源许可

遵守MIT开源许可

About

提取非扫描版pdf表格信息的py3脚本

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages