我正在使用PyPDF2从PDF文件中提取数据,然后转换为文本格式吗?

文件的PDF格式如下:

Name : John

Address: 123street , USA

Phone No: 123456

Gender: Male

Name : Jim

Address: 456street , USA

Phone No: 456899

Gender: Male

在Python中,我使用以下代码:

import PyPDF2

pdf_file = open('C:\\Users\\Desktop\\Sampletest.pdf', 'rb')

read_pdf = PyPDF2.PdfFileReader(pdf_file)

number_of_pages = read_pdf.getNumPages()

page = read_pdf.getPage(0)

page_content = page.extractText()

page_content

这是我从page_content获得的结果:

'Name : John \n \nAddress: 123street , USA \n \nPhone No: 123456\n \nGender: Male \n \n \nName : Jim \n \nAddress: 456street , USA \n \nPhone No: 456899\n \nGender: Male \n \n \n'

如何将其格式化为JSON或XML格式,以便可以在SQL Server数据库中使用提取的数据。

我也尝试使用这种方法

import json

data = json.dumps(page_content)

formatj = json.loads(data)

print (formatj)

输出:

Name : John

Address: 123street , USA

Phone No: 123456

Gender: Male

Name : Jim

Address: 456street , USA

Phone No: 456899

Gender: Male

这与我的word文件中的输出相同,但是我认为这不是JSON格式。

参考方案

不太漂亮,但是我认为这可以完成工作。您将获得一个字典,然后由json解析器以一种漂亮的漂亮格式将其打印出来。

import json

def get_data(page_content):

_dict = {}

page_content_list = page_content.splitlines()

for line in page_content_list:

if ':' not in line:

continue

key, value = line.split(':')

_dict[key.strip()] = value.strip()

return _dict

page_data = get_data(page_content)

json_data = json.dumps(page_data, indent=4)

print(json_data)

或代替最后三行,只需执行以下操作:

print(json.dumps(get_data(page_content), indent=4))

Python GPU资源利用 - python

我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平?例如,使用着色器,float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢! 参考方案 您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源,已用缓冲区,不同渲染状态上…Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到,如果应用程序被强制关闭(通过错误或通过任务管理器结束),则会收到sqlite3错误(sqlite3.OperationalError:数据库已锁定)。我想这是因为在应用程序关闭之前,我没有正确关闭数据库连接。我已经试过了: connectio…Python exchangelib在子文件夹中读取邮件 - python

我想从Outlook邮箱的子文件夹中读取邮件。Inbox ├──myfolder 我可以使用account.inbox.all()阅读收件箱,但我想阅读myfolder中的邮件我尝试了此页面folder部分中的内容,但无法正确完成https://pypi.python.org/pypi/exchangelib/ 参考方案 您需要首先掌握Folder的myfo…python-docx应该在空单元格已满时返回空单元格 - python

我试图遍历文档中的所有表并从中提取文本。作为中间步骤,我只是尝试将文本打印到控制台。我在类似的帖子中已经看过scanny提供的其他代码,但是由于某种原因,它并没有提供我正在解析的文档的预期输出可以在https://www.ontario.ca/laws/regulation/140300中找到该文档from docx import Document from…Python ThreadPoolExecutor抑制异常 - python

from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED def div_zero(x): print('In div_zero') return x / 0 with ThreadPoolExecutor(max_workers=4) as execut…

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐