Python爬虫Urllib和Requests的区别详解

我们讲了requests的用法以及利用requests简单爬取、保存网页的方法,这节课我们主要讲urllib和requests的区别。

1、获取网页数据
第一步,引入模块。

两者引入的模块是不一样的,这一点显而易见。

37964C8E-DC6A-AD49-5130-6C37F9E6E0E3.jpeg

第二步,简单网页发起的请求。

urllib是通过urlopen方法获取数据。

requests需要通过网页的响应类型获取数据。

C211EE2C-AC1E-8B34-BD1F-D400D09042FD.jpeg

第三步,数据封装。

对于复杂的数据请求,我们只是简单的通过urlopen方法肯定是不行的。

urllib中,我们知道对于有反爬虫机制的网站,我们需要对URL进行封装,以获取到数据。我们可以回顾下前几节课的内容:

CC4B5D2F-392F-9160-641E-F780227E6ED2.jpeg

requests模块中,就不需要这么复杂的操作,直接在第二步中,加入参数headers即可:

E37E71D2-A940-4DC4-9606-0E6FC70ACB7E.jpeg

2、解析网页数据

urllib和requests都可以通过bs4和re进行数据的解析,requests还可以通过xpath进行解析。具体解析方法之后会详解

3.保存数据

urllib需要引入xlwt模块进行新建表格、sheet表格写入数据.

B4F82495-0F0D-2534-2CE9-E1BE8CDCE44E.jpeg

requests通过with…as直接虚入数据:

1EBABF23-6598-FB01-E57A-B40D60C4F5A1.jpeg

接下来,我们通过几个案例一一讲解requests爬取数据的整个过程!

收藏 (0)
评论列表
正在载入评论列表...
我是有底线的
为您推荐
    暂时没有数据