【网络安全带你练爬虫-100练】第18练：将爬取内容写入到word文档指定位置

【python爬虫】将爬取内容处理成word

黑色地带(崛起)

1293人浏览 · 2023-08-28 16:17:10

黑色地带(崛起) · 2023-08-28 16:17:10 发布

一、目标1：将文本添加到word指定位置

二、目标2：将图片插入到word中

一、目标1：将文本添加到word指定位置

要使用Python将内容写入Word文档的特定位置，可以使用Python中的第三方库python-docx来进行操作。

需要先安装python-docx库：

pip install python-docx

代码：

from docx import Document

# 打开现有的Word文档
doc = Document('path/to/your/document.docx')

# 获取第一个段落
first_paragraph = doc.paragraphs[0]

# 在段落的末尾添加文本
first_paragraph.add_run('这是要添加的内容')

# 保存修改后的文档
doc.save('path/to/your/modified_document.docx')

注释：

1、导入Document类和相关模块。

2、通过Document类打开现有的Word文档（将path/to/your/document.docx替换为实际的文档路径）

3、使用paragraphs属性访问文档中的段落列表，并获取第一个段落（索引为0）（根据需要修改索引以访问其他段落）

4、使用add_run()方法在选定的段落末尾添加文本内容。

5、使用save()方法将修改后的文档保存到指定的路径（path/to/your/modified_document.docx替换为保存的路径和文件名）

二、目标2：将图片插入到word中

思路：其实就是访问图片、下载图片、插入图片

要将Python爬取的图文界面原封不动地写入Word文档，可以使用Python中的第三方库requests和python-docx来实现

需要先安装requests和python-docx库

pip install requests python-docx

import requests
from docx import Document

# 发送HTTP请求获取网页内容
url = 'https://example.com'  # 替换为要爬取的网页URL
response = requests.get(url)
html_content = response.text

# 创建Word文档
doc = Document()

# 将网页内容写入Word文档
doc.add_paragraph(html_content)

# 保存文档
doc.save('path/to/your/document.docx')

注释：

1、导入requests库和Document类。

2、使用requests.get()函数向指定的URL发送HTTP请求，并将响应内容保存在response变量中。

3、使用response.text获取网页的HTML内容，并将其保存在html_content变量中（https://example.com替换为爬取的网页URL）

4、使用Document类创建一个新的Word文档（或者可以打开已有文档）

5、使用add_paragraph()方法将爬取的HTML内容作为一个段落写入Word文档（可以根据需要使用其他方法和属性对文档进行更复杂的操作）

6、使用save()方法将文档保存到指定的路径（将path/to/your/document.docx替换为预期路径和文件名）

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

魔乐社区

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模