标签: 爬虫

Python爬虫中多线程的使用详解

queue介绍queue是python的标准库,俗称队列.可以直接import引用,在python2.x中,模块名为Queue。python3直接queue即可在python中,多个线程之间的数据是共享的,多个线程进行数据交换的时候,不能够保证数据的安全性和一致性,所以当多个线程需要进行数据交换的时...

Python 2021-04-28 215 0 0 阅读全文

Python实现三种随机请求头方式

相信大家在爬虫中都设置过请求头user-agent这个参数吧?在请求的时候,加入这个参数,就可以一定程度的伪装成浏览器,就不会被服务器直接识别为spider.demo.code,据我了解的,我很多读者每次都是直接从network中去复制user-agent然后把他粘贴到代码中,这样获取的user-a...

Python 2021-04-05 207 0 0 阅读全文

Python爬虫模拟登陆哔哩哔哩(Bilibili)并突破点选验证码功能

写在前面今天带给大家一个突破点选验证码的案例,利用爬虫模拟登陆哔哩哔哩,并且把一些采坑的地方给大家强调一下,避免大家想我一样(唉,菜鸡本菜)还是老规矩在文末会附上完整代码,需要的小伙伴自取就好了,能帮助到你的话别忘了点赞关注喔~郑重声明:本人目前仅在CSDN这一个平台发布文章,其他小伙伴如果想转载或...

Python 2021-04-10 254 0 0 阅读全文

Python3爬虫GIL修改多线程实例讲解

我们打开程序后,会发现电脑的内存和cpu发生了变化。在对于前者上面,自然是希望内容占用小,cpu的利用越高越好。那有没有什么方法可以让我们的cpu达到满状态的运行效果呢?这就得用到我们所学的多线程中的知识了,再正式开始讲解之前,我们先来说说操作的思路吧,然后进行代码对比。我们都知道,比方我有一个4核...

Python 2021-04-18 219 0 0 阅读全文

Java 爬虫数据异步加载如何解决

在这篇文章中我们一起来聊一聊爬虫时遇到数据异步加载的问题,这也是爬虫中常见的问题。现在很多都是前后端分离项目,这会使得数据异步加载问题更加突出,所以你在爬虫时遇到这类问题不必惊讶,不必慌张。对于这类问题的解决办法总体来说有以下两种:1、内置一个浏览器内核内置浏览器就是在抓取的程序中,启动一个浏览器内...

Java 2021-04-30 197 0 0 阅读全文

Java 爬虫服务器被屏蔽的解决方案

这是Java爬虫系列博文的第四篇,在上一篇Java爬虫数据异步加载如何解决,试试这两种办法!中,我们从内置浏览器内核和反向解析法两个角度简单的聊了聊关于处理数据异步加载问题。在这篇文章中,我们简单的来聊一聊爬虫时,资源网站根据用户访问行为屏蔽掉爬虫程序及其对应的解决办法。屏蔽爬虫程序是资源网站的一种...

Java 2021-04-30 289 0 0 阅读全文

Python3爬虫中多线程的优势总结

有些小伙伴跟小编讨论了python中使用多线程原理的问题,就聊到了关于python多线程的弊端问题,这点可能在使用的过程中大家会能感觉到。而且之前讲过的GIL也是对python多线程的一种限制。那么,我们为什么还要用多线程呢?当然是多线程的优势已经掩盖了它本身不足之处,所以我们来加强一下学习pyth...

Python 2021-04-17 202 0 0 阅读全文

Python3爬虫中引用Queue的实例讲解

我们去一个受欢迎的地方买东西,难免会需要排队等待。如果有多个窗口的话,就会有不同队列的产生,当然每个队伍的人数也会出现参差不齐的现象。我们今天所要说的Queue就可以理解成生活中的排队现象。那么结合我们所要用的爬虫知识,应该怎么在Queue中应用呢?接下来就开始今天的内容学习:队列这种东西大家应该都...

Python 2021-04-18 226 0 0 阅读全文

Python 如何引入协程和原理分析

相关概念并发:指一个时间段内,有几个程序在同一个cpu上运行,但是任意时刻只有一个程序在cpu上运行。比如说在一秒内cpu切换了100个进程,就可以认为cpu的并发是100。并行:值任意时刻点上,有多个程序同时运行在cpu上,可以理解为多个cpu,每个cpu独立运行自己程序,互不干扰。并行数量和cp...

Python 2021-04-12 168 0 0 阅读全文

小众实用的Python 爬虫库RoboBrowser

1.大家好,我是安果!今天推荐一款小众轻量级的爬虫库:RoboBrowserRoboBrowser,Yourfriendlyneighborhoodwebscraper!由纯Python编写,运行无需独立的浏览器,它不仅可以做爬虫,还可以实现Web端的自动化项目地址:​https://github....

Python 2021-03-18 320 0 0 阅读全文

记一次Python 爬虫爬取深圳租房信息的过程及遇到的问题

为了分析深圳市所有长租、短租公寓的信息,爬取了某租房公寓网站上深圳区域所有在租公寓信息,以下记录了爬取过程以及爬取过程中遇到的问题:爬取代码:importrequestsfromrequests.exceptionsimportRequestExceptionfrompyqueryimportPyQ...

Python 2021-04-17 193 0 0 阅读全文

Python爬取代理Ip的示例

要写爬虫爬取大量的数据,就会面临ip被封的问题,虽然可以通过设置延时的方法来延缓对网站的访问,但是一旦访问次数过多仍然会面临ip被封的风险,这时我们就需要用到动态的ip地址来隐藏真实的ip信息,如果做爬虫项目,建议选取一些平台提供的动态ip服务,引用api即可。目前国内有很多提供动态ip的平台,普遍...

Python 2021-04-10 169 0 0 阅读全文

Python 爬虫网页登陆的简单实现

相信各位在写python爬虫的时候会在爬取网站时遇到一些登陆的问题,比如说登陆时遇到输入验证码比如说登录时遇到图片拖拽等验证,如何解决这类问题呢?一般有两种方案。使用cookie登陆我们可以通过使用cookies登陆,首先获取浏览器的cookie,然后利用requests库直接登陆cookie,服务...

Python 2021-04-12 259 0 0 阅读全文

Selenium结合BeautifulSoup4编写简单的Python爬虫

在学会了抓包,接口请求(如requests库)和Selenium的一些操作方法后,基本上就可以编写爬虫,爬取绝大多数网站的内容。在爬虫领域,Selenium永远是最后一道防线。从本质上来说,访问网页实际上就是一个接口请求。请求url后,返回的是网页的源代码。我们只需要解析html或者通过正则匹配提取...

Python 2021-04-14 249 0 0 阅读全文

Python中Time包实例详解

在python中基础的时间运用,离不开time函数的支持。这些函数为了方便调用集中放在一个地方,叫做time包。有的人会仔细追寻time包的来源,会发现它和C语言有密不可分的关系。下面我们简单介绍time包的概念,然后就包中的一些函数进行列举,并附上对应的使用方法。1.概念time包基于C语言的库函...

Python 2021-03-28 188 0 0 阅读全文

Python爬虫 Requests-Html的使用

一介绍Python上有一个非常著名的HTTP库——requests,相信大家都听说过,用过的人都说非常爽!现在requests库的作者又发布了一个新库,叫做requests-html,看名字也能猜出来,这是一个解析HTML的库,具备requests的功能以外,还新增了一些更加强大的功能,用起来比re...

Python 2021-04-12 182 0 0 阅读全文

Python爬虫智能翻页批量下载文件的实例详解

python爬虫遇到爬取文件内容时,需要一页页的翻页爬取,这样很是麻烦,其实可以获取每个列表信息下的文件名和文件链接,让文件名和文件链接处理为列表,保存后下载,实现智能翻页批量下载文件,本文以以京客隆为例,批量下载文件,如财务资料,他的每一份报告都是一份pdf格式的文档。以此页面为目标,下载他每个分...

Python 2021-03-28 196 0 0 阅读全文

Python爬虫工具例举说明

小编发现对于一些刚学python的初学者来说,学习基础的模块知识固然重要,但是更多的倾向于依赖一些实用小工具去解决问题。不得不说,为了省时省力小编刚学python的时候也用工具去处理了一些事情,发现效果还不错。这里把之前使用的python爬虫工具整理了出来,进行简单介绍和优势分析,下面一起来看看有哪...

Python 2021-04-12 165 0 0 阅读全文

Python 解决函数返回Return的问题

定义一个带返回值的函数,需要使用return语句在调用这个函数时返回一个目标值,当没有return时,函数默认返回None。分析下面两个程序:defnow():print('2017-9-25')now()out:2017-9-25defnow():print('2017-9-25')print(n...

Python 2021-04-10 154 0 0 阅读全文

Python并发爬虫实用工具Tomorrow实用解析

tomorrow是我最近在用的一个爬虫利器,该模块属于第三方的一个模块,使用起来非常的方便,只需要用其中的threads方法作为装饰器去修饰一个普通的函数,既可以达到并发的效果,本篇将用实例来展示tomorrow的强大之处。后面将对tomorrow的实现原理做进一步的分析。1.安装第三方包pipin...

Python 2021-04-28 218 0 0 阅读全文