最近在学习python爬虫技术,研究了一下采集实现电商平台之一的拼多多商品数据,因为之前专注了解Java的知识,现在这段时间看了相关python的知识点,发现python重

开放、灵活。代码简洁优美、模块很多,用简单的语句可以完成很多神奇的功能,非常便捷我们的工作,

首先要了解什么是python爬虫?即是一段自动抓取互联网信息的程序,从互联网上抓取于我们有价值的信息。

python爬虫架构主要由5个部分组成,分别是调度器、url管理器、网页下载器、网页解析器、应用程序去采集有价值的数据

调度器:相当于一台电脑的cpu,主要负责调度url管理器、下载器、解析器之间的协调工作

url管理器:包括待爬取得url地址和已爬取得url地址,防止重复抓取url和循环抓取url,实现url管理器主要用三种方式,通过内存、数据库、缓存数据库来实现

网页下载器:通过传入一个人url地址来下载网页,将网页转换成一个字符串,网页下载器有urllib2(Python官方基础模块)包括需要登录、代理、和cookie,requests(第三方包)

网页解析器:将一个网页字符串进行解析,可以按照我们得要求来提取出我们有用得信息,也可以根据DOM树得解析方式来解析。

网页解析器有正则表达式(直观,将网页转成字符串通过模糊匹配的方式来提取有价值的信息,当文档比较复杂的时候,该方法提取数据的时候就会非常的困难)、html.parser(Python自带的)、

beautifulsoup(第三方插件,可以使用Python自带的html.parser进行解析,也可以使用lxml进行解析,相对于其他几种来说要强大一些)、lxml(第三方插件,可以解析 xml 和 HTML),

html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 树的方式进行解析的。

应用程序:从网页中提取得有用数据组成得一个应用

了解了一些大概得知识点以后,自己也进行了实际操作,采集了拼多多得一些数据,拼多多能采集得范围能根据不同得关键词进行搜索后,能采集道商品店铺得名字、商品标题、商品价格、商品图片url、商品url、商品销量

就如关键词---手机,进行搜索如下:

1315230-20190524151908509-453048113.png

采集的手机数据结果如下:

1315230-20190524151949318-570243794.png

如关键词--口红  进行搜索如下:

1315230-20190524152145713-73658484.png

采集的口红数据结果如下:

1315230-20190524152235546-43222391.png

不同关键词可以采集不同的数据,并将数据展现不同的格式,数据的收集也便于分析相关关键词商品的销量数更高,针对不同的需求和不同的网站平台的数据都可以做相应数据的数据采集和数据分析业务,进而可以根据对应的业务做相应的运营或营销策略

标签:网页,python,采集,url,解析,数据

来源: https://www.cnblogs.com/qxl1234/p/10918457.html

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐