Python数据采集实战-使用BeautifulSoup框架解析HTML文档并提取所需内容（附源码和实现效果）

Python数据采集实战-使用BeautifulSoup框架解析HTML文档并提取所需内容（附源码和实现效果）

数据杂坛

1081人浏览 · 2023-08-22 16:23:32

数据杂坛 · 2023-08-22 16:23:32 发布

实现功能

使用BeautifulSoup框架解析HTML文档并提取所需内容的例子：假设我们要从以下HTML文档中提取所有超链接的链接地址

实现代码


from bs4 import BeautifulSoup
import requests

# 发送请求并获取HTML文档
url = "https://www.baidu.com"
response = requests.get(url)
html_doc = response.text

# 使用BeautifulSoup解析HTML文档
soup = BeautifulSoup(html_doc, 'html.parser')

# 提取所有链接
links = []
for link in soup.find_all('a'):
    links.append(link.get('href'))

# 打印链接列表
print(links)

实现效果

本人读研期间发表5篇SCI数据挖掘相关论文，现在某研究院从事数据挖掘相关科研工作，对数据挖掘有一定认知和理解，会结合自身科研实践经历不定期分享关于python机器学习、深度学习、数据挖掘基础知识与案例。

致力于只做原创，以最简单的方式理解和学习，关注我一起交流成长。

邀请三个朋友关注V订阅号：数据杂坛，即可在后台联系我获取相关数据集和源码，送有关数据分析、数据挖掘、机器学习、深度学习相关的电子书籍。

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

cover

大数据毕业设计选题推荐-基于大数据的农作物产量数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData

cover

大模型推理适配实战：手把手带你完成vLLM Ascend迁移实操

cover

基于python大数据的汽车数据分析系统设计与实现

所有评论(0)

查看更多评论

数据杂坛

@sinat_41858359

已为社区贡献26条内容