python json转xml_如何在Python中将提取的文本从PDF转换为JSON或XML格式？ - python

weixin_39596090

668人浏览 · 2020-11-26 05:19:19

weixin_39596090 · 2020-11-26 05:19:19 发布

我正在使用PyPDF2从PDF文件中提取数据，然后转换为文本格式吗？

文件的PDF格式如下：

Name : John

Address: 123street , USA

Phone No: 123456

Gender: Male

Name : Jim

Address: 456street , USA

Phone No: 456899

Gender: Male

在Python中，我使用以下代码：

import PyPDF2

pdf_file = open('C:\\Users\\Desktop\\Sampletest.pdf', 'rb')

read_pdf = PyPDF2.PdfFileReader(pdf_file)

number_of_pages = read_pdf.getNumPages()

page = read_pdf.getPage(0)

page_content = page.extractText()

page_content

这是我从page_content获得的结果：

'Name : John \n \nAddress: 123street , USA \n \nPhone No: 123456\n \nGender: Male \n \n \nName : Jim \n \nAddress: 456street , USA \n \nPhone No: 456899\n \nGender: Male \n \n \n'

如何将其格式化为JSON或XML格式，以便可以在SQL Server数据库中使用提取的数据。

我也尝试使用这种方法

import json

data = json.dumps(page_content)

formatj = json.loads(data)

print (formatj)

输出：

Name : John

Address: 123street , USA

Phone No: 123456

Gender: Male

Name : Jim

Address: 456street , USA

Phone No: 456899

Gender: Male

这与我的word文件中的输出相同，但是我认为这不是JSON格式。

参考方案

不太漂亮，但是我认为这可以完成工作。您将获得一个字典，然后由json解析器以一种漂亮的漂亮格式将其打印出来。

import json

def get_data(page_content):

_dict = {}

page_content_list = page_content.splitlines()

for line in page_content_list:

if ':' not in line:

continue

key, value = line.split(':')

_dict[key.strip()] = value.strip()

return _dict

page_data = get_data(page_content)

json_data = json.dumps(page_data, indent=4)

print(json_data)

或代替最后三行，只需执行以下操作：

print(json.dumps(get_data(page_content), indent=4))

Python GPU资源利用 - python

我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平？例如，使用着色器，float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢！参考方案您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源，已用缓冲区，不同渲染状态上…Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到，如果应用程序被强制关闭（通过错误或通过任务管理器结束），则会收到sqlite3错误（sqlite3.OperationalError：数据库已锁定）。我想这是因为在应用程序关闭之前，我没有正确关闭数据库连接。我已经试过了： connectio…Python exchangelib在子文件夹中读取邮件 - python

我想从Outlook邮箱的子文件夹中读取邮件。Inbox ├──myfolder 我可以使用account.inbox.all()阅读收件箱，但我想阅读myfolder中的邮件我尝试了此页面folder部分中的内容，但无法正确完成https://pypi.python.org/pypi/exchangelib/ 参考方案您需要首先掌握Folder的myfo…python-docx应该在空单元格已满时返回空单元格 - python

我试图遍历文档中的所有表并从中提取文本。作为中间步骤，我只是尝试将文本打印到控制台。我在类似的帖子中已经看过scanny提供的其他代码，但是由于某种原因，它并没有提供我正在解析的文档的预期输出可以在https://www.ontario.ca/laws/regulation/140300中找到该文档from docx import Document from…Python ThreadPoolExecutor抑制异常 - python

from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED def div_zero(x): print('In div_zero') return x / 0 with ThreadPoolExecutor(max_workers=4) as execut…

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模