博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Java实现爬虫(代码后续补充。。。)
阅读量:6422 次
发布时间:2019-06-23

本文共 386 字,大约阅读时间需要 1 分钟。

hot3.png

为了实现爬取某个页面的信息,我们需要实现一个爬虫。大致上分为2个阶段,

1)模拟登录 

模拟登陆也分为两部分,

 

带验证码的和不带验证码的。

1、不带验证码的

直接模拟登陆

2、带验证码的

实现待验证的登录时,我采取的方式是先下载验证码图片到本地,并保存对应的cookie信息,经过图片解析(分几种情况,下面会讲),我们使用和验证码匹配的cookie信息加验证码去模拟登录。

1>下载验证码图片

2>获取验证码对应的cookie

3>图片识别

1】手动识别

2】谷歌Tesseract识别

3】

 

 2)抓取页面

抓取页面时,我们需要用到登录时的cookie信息。否则,cookie信息不匹配会导致访问其他页面时被重定向到登录页,当然是在服务端有相关的过滤异常访问的机制的情况下。

转载于:https://my.oschina.net/yuhangyes/blog/3010298

你可能感兴趣的文章
web项目buildPath与lib的区别
查看>>
php对redis的set(集合)操作
查看>>
我的友情链接
查看>>
ifconfig:command not found的解决方法
查看>>
计算机是怎么存储数字的
查看>>
Codeforces Round #369 (Div. 2) A. Bus to Udayland 水题
查看>>
adb上使用cp/mv命令的替代方法(failed on '***' - Cross-device link解决方法)
查看>>
C++标准库简介、与STL的关系。
查看>>
Spring Boot 3 Hibernate
查看>>
查询EBS请求日志的位置和名称
查看>>
大型机、小型机、x86服务器的区别
查看>>
J2EE十三个规范小结
查看>>
算法(第四版)C#题解——2.1
查看>>
网关支付、银联代扣通道、快捷支付、银行卡支付分别是怎么样进行支付的?...
查看>>
大数据开发实战:Stream SQL实时开发一
查看>>
C++返回引用的函数例程
查看>>
dll 问题 (转)
查看>>
REST API用得也痛苦
查看>>
test for windows live writer plugins
查看>>
Tiny210 U-BOOT(二)----配置时钟频率基本原理
查看>>