pdf_information_extraction

提取非扫描版pdf表格信息的py3脚本

介绍

脚本使用camelot完成，目前可以提取简单的表格信息，返回字典，并在脚本目录创建每页对应的json文件。

使用方式

脚本支持对单一文件或目录下所有pdf文件表格信息的提取，在运行脚本后根据提示输入pdf文件/目录所在路径。
如果只需要提取某一页的pdf表格，需要在pdf文件名中增加_数字，数字代表需要提取表格的页码，会提取当前页的所有表格。

下面的例子将提取pdf12，125页所包含的表格信息。

pdfname_12_125.pdf

如果需要提取所有表格信息，需要避免文件名包含_数字的形式。

计划

1：解决对pdf文本信息的提取

开源许可

遵守MIT开源许可

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
LICENSE		LICENSE
README.md		README.md
pdf_read.py		pdf_read.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

LICENSE

LICENSE

README.md

README.md

pdf_read.py

pdf_read.py

Repository files navigation

pdf_information_extraction

介绍

使用方式

计划

相关资料

开源许可

About

Releases

Packages

Languages

License

BeHappy0o0o0o0/pdf_information_extraction

Folders and files

Latest commit

History

Repository files navigation

pdf_information_extraction

介绍

使用方式

计划

相关资料

开源许可

About

Topics

Resources

License

Stars

Watchers

Forks

Languages