为了实现爬取某个页面的信息,我们需要实现一个爬虫。大致上分为2个阶段,
1)模拟登录
模拟登陆也分为两部分,
带验证码的和不带验证码的。
1、不带验证码的
直接模拟登陆
2、带验证码的
实现待验证的登录时,我采取的方式是先下载验证码图片到本地,并保存对应的cookie信息,经过图片解析(分几种情况,下面会讲),我们使用和验证码匹配的cookie信息加验证码去模拟登录。
1>下载验证码图片
2>获取验证码对应的cookie
3>图片识别
1】手动识别
2】谷歌Tesseract识别
3】
2)抓取页面
抓取页面时,我们需要用到登录时的cookie信息。否则,cookie信息不匹配会导致访问其他页面时被重定向到登录页,当然是在服务端有相关的过滤异常访问的机制的情况下。