网页表格抓取(pdf表格提取camelot安装教程通过测试,macos与win10都可以用)
优采云 发布时间: 2021-10-27 13:29网页表格抓取(pdf表格提取camelot安装教程通过测试,macos与win10都可以用)
pdf格式提取camelot安装教程通过测试,macos和win10可以通过以下方式安装
Camelot:一个友好的PDF表格数据提取工具python
一个 python 命令行工具,允许任何人轻松地从 PDF 文件中提取表格数据。网络
如何使用 Camelotmacos
使用Camelot从PDF文档中提取数据非常简单svg
. Camelot 允许您调整设置以精确控制数据提取过程工具
.能够根据空白和精度指标判断不良表格,并丢弃,而不是手动检查测试
.每张表数据都是一个panda dataframe,可以方便的集成到ETL和数据分析工作流中。
.能够将数据导出为各种不同的格式,如CSV、JSON、EXCEL、HTMLcode
先在电脑上安装python3.6,然后在命令行输入:orm
pip install camelot-py
(CLOT) C:\Users\yss>python
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import camelot as cl
......
import chardet # For str encoding detection in Py3
ModuleNotFoundError: No module named 'chardet'
>>>
如果报错如上:No module named'chardet',返回系统命令行执行:xml
pip install chardet
成功安装chardet后,再次输入python命令test:
(CLOT) C:\Users\yss>python
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import camelot as cl
File "F:\APP\Ides\Anaconda3\envs\CLOT\lib\site-packages\camelot\image_processing.py", line 5, in
import cv2
ModuleNotFoundError: No module named 'cv2'
>>>
错误:ModuleNotFoundError: No module named'cv2',应该是没有安装opencv库。
再次回到系统命令行,安装opencv库:
pip install opencv-python
执行以上操作后,安装成功。
再次输入python,输入:
import camelot as cl
永远不要再报错。
输出它的版本号:
print(cl.__version__)
测试过程如下:
(CLOT) C:\Users\yss>python
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import camelot as cl
>>> cl.__version__
'0.3.2'
>>>
安装完成后,我稍后会开始使用它。以后有机会我会更新我的经验。