如果你注意到你获取的信息内容与目标网站屏幕上显示的正常信息不同,换句话说,你抓取的信息是空白的,那么很有可能你抓取的网站的程序在创建网页时出现了问题。如果爬行频率超过目标在线平台的限制阈值,将被禁止进入。一般来说,IP是网站防rip机制的基础。当我们浏览网站时,我们的IP地址会被记录下来,服务器会把你当成爬虫程序。所以频繁的抓取会使现有的IP地址无法使用,我们必须想办法改变自己设备的IP地址或者现有的爬虫程序。
因此,网络爬虫开发者一般需要采用两种技术手段来处理这类问题。
1、用世界数据动态拨打vps服务器设置代理IP,克服反爬虫系统进行高频抓取,因此需要多个稳定的代理IPS。基于ADSL拨号的常见解决方案。一般在爬行过程中禁止访问时,可以再次进行ADSL拨号,获取新的IP,这样爬行就可以继续了。但是多站点多线程抓取时,如果禁止某个网站的抓取,也会对其他网站的抓取造成危害,总体上也会降低获取速度。
2、放慢抓取速度,这样对目标网站的压力会相对减小,但这样做,单位时间的抓取量会相对减小。
另一种可能的解决方案也是基于ADSL拨号。不同的是,需要两个能够ADSL拨号的动态拨号VPS,这两个服务器在抓取过程中作为代理。假设有两台服务器,A和B,可以拨打ADSL。爬虫运行在C服务器上,使用A作为代理访问外部网络。如果在爬行过程中禁止访问,代理立即切换到B,然后A被重拨。如果再次禁止访问,则切换到A作为代理,B再次拨号,以此类推。
在实际的爬行过程中,仍然有许多问题需要我们根据实际情况进行分析和解决。在很大程度上,爬虫爬行是一项麻烦和困难的工作,因此已经开发了许多软件来解决爬虫程序的各种问题。有不懂的请咨询梦飞云idc了解。