R语言-爬虫rvest

爬虫就是批量自动将网页的内容抓取下来。用任何语言做爬虫必须要了解的就是网页语法，网页语言无非就是HTML，XML，JSON等，因为正是通过这些我们才能在网页中提取数据，过多的就不再描述，大家可以自行参考大量的资料，大多数语法都是树形结构，所以只要理解了，找到需要数据的位置并不是很难。用R语言制作爬虫无非就是三个主要的包。XML,RCurl,rvest，这三个包都有不同的主要函数，是R语言最牛的网络

小孔乘象k

5192人浏览 · 2020-11-08 18:34:32

小孔乘象k · 2020-11-08 18:34:32 发布

爬虫就是批量自动将网页的内容抓取下来。用任何语言做爬虫必须要了解的就是网页语法，网页语言无非就是HTML，XML，JSON等，因为正是通过这些我们才能在网页中提取数据，过多的就不再描述，大家可以自行参考大量的资料，大多数语法都是树形结构，所以只要理解了，找到需要数据的位置并不是很难。

用R语言制作爬虫无非就是三个主要的包。XML,RCurl,rvest，这三个包都有不同的主要函数，是R语言最牛的网络爬虫包。

了解html

HTML框架简单说就是任何HTML网页文件中都会包含的基本代码内容。如果我们打算写一个页面，就一定要把框架代码写入后才能正式开始添加内容。框架代码如下：

<!DOCTYPE HTML><html> <head> </head> <body> </body> </html>
<!DOCTYPE HTML>

<html>
<head>
</head>
<body>
</body>
</html>

这七行代码是所有HTML页面所共有的，也就是HTML的框架了。可以发现也是很有规律的，比如<head>是开头，</head>是结尾，成对出现。

rvest 介绍及使用

官网连接如下
https://github.com/tidyverse/rvest

对于rvest的使用，主要掌握read_html、html_nodes、html_attr、html_text几个函数。
read_html函数获取获取网页信息；
html_nodes获取网页节点信息；
html_attr函数获取特定节点的属性值。
html_text():获取指定名称的网页元素、节点文本；

rvest是R语言一个用来做网页数据抓取的包，包的介绍就是“更容易地收割（抓取）网页”。其中html_nodes()函数查找标签的功能非常好用。

相关的函数：
read_html():读取html文档；
html_nodes():获取指定名称的网页元素、节点；
html_text():获取指定名称的网页元素、节点文本；
html_attrs(): 提取所有属性名称及内容；
html_attr(): 提取指定属性名称及内容；
html_tag():提取标签名称；
html_table():解析网页数据表的数据到R的数据框中；
html_session():利用cookie实现模拟登陆；
guess_encoding():返回文档的详细编码；
repair_encoding():用来修复html文档读入后乱码的问题。
html_session()用来在浏览器中模拟会话
jump_to()用来接收一个url用来连接的跳转
follow_link()用来接收一个表达式(例如a标签)进行连接的跳转
back()用来模拟浏览器后退按钮
forward()用来模拟浏览器前进按钮
submit_form()用来提交表单
str_trim() 删除字符串2端的空格，转义字符也能删掉。

例子

以爬取链家房的名称 https://hz.lianjia.com/ershoufang/pg/ 为例。
**目标：**我们想要爬取房名。
在这里插入图片描述

步骤：
鼠标右键==》审查元素（或者检查），可以看到这些信息所位于的网页标签。
在这里插入图片描述
一步一步解析我们要爬取的内容的位置，因为是树结构，直接看。
内容位于title里面。class="title"表示网页元素div的类为title，用“.”表示类.title a（如果遇到< div id=“idName”>就需要用#，即：#idName）

可以理解为class名为title下的a标签，直接定位到房名。

# 完整代码
lianjia <- read_html("https://hz.lianjia.com/ershoufang/pg/",encoding = "UTF-8")
# 获得节点信息 ： CSS 或者 xml 方式
# https://www.w3school.com.cn/cssref/css_selectors.asp
# https://www.w3school.com.cn/xpath/xpath_syntax.asp
pinfen <- lianjia %>% html_nodes('.title a')%>%
  html_text()
pinfen
pinfen <- lianjia %>% html_nodes('.sellListContent .title a')%>%
  html_text()
pinfen
# 问题：为什么两个 pinfen内容差一个呢？答案如下图。

在这里插入图片描述

答案：因为如果上层只定义title的话，可能匹配到另外的类，所以为了增加准确性可以再加一个上层类sellListContent。

这次的例子是爬取了1页的房名，如果想爬取30页的呢？我们查看网址信息：

https://hz.lianjia.com/ershoufang/pg2/
https://hz.lianjia.com/ershoufang/pg3/
https://hz.lianjia.com/ershoufang/pg4/
https://hz.lianjia.com/ershoufang/pg30/

https://hz.lianjia.com/ershoufang/pgxxx/

所以，如上，我们只需要写个循环就可以获得所有页的房名信息。

**注意：**我们这里教程是爬取静态网页的信息，如果是动态网页的话，就需要其它包来爬取，敬请期待~

【末尾福利】
这里强烈推荐一个插件：SelectorGadget
https://huajiakeji.com/web-development/2019-08/957.html

相信爬虫的爱好者们都经历过这样一个爬虫前期的准备过程，那就是用浏览器的审查元素进行爬取目标的定位。每次我们都要浪费部分时间去寻找定位点和xpath，这样既不很方便，也不高效，那么如何提高爬虫中这部分工作的效率呢？它就是：SelectorGadget 插件

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r