python提取网页链接_Python网络爬虫——把一个网页中所有的链接地址提取出来（去重）...

weixin_39960793

2028人浏览 · 2020-11-29 05:23:22

weixin_39960793 · 2020-11-29 05:23:22 发布

# 把一个网页中所有的链接地址提取出来。

运行环境Python3.6.4-实现代码：

import urllib.request

import re

#1. 确定好要爬取的入口链接

url = "http://blog.csdn.net"

# 2.根据需求构建好链接提取的正则表达式

pattern1 = '<.*?(href=".*?").*?'

#3.模拟成浏览器并爬取对应的网页谷歌浏览器

headers = {'User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}

opener = urllib.request.build_opener()

opener.addheaders = [headers]

data = opener.open(url).read().decode('utf8')

# 4.根据2中规则提取出该网页中包含的链接

content_href = re.findall(pattern1,data,re.I)

# print(content_href)

# 5.过滤掉重复的链接

# # 列表转集合(去重) list1 = [6, 7, 7, 8, 8, 9] set(list1) {6, 7, 8, 9}

set1 = set(content_href)

# 6.后续操作，比如打印出来或者保存到文件中。

file_new = "D:\爬虫\href.txt"

with open(file_new,'w') as f:

for i in set1:

f.write(i)

f.write("n")

# f.close()

print('已经生成文件')

950_90.jpg?v=555570

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模