jsoup爬虫实战心得
许洪涛 人气:01.heder很重要,一切尽在header中。尤其cookie,useragent。
2.对于加密的连接,查看js加密过程并试着通过java或你正在使用的语言去实现
3.查看在跳转之前前端发起的关键请求,所谓关键请求乃指包含查询关键字的链接。
4.发送关键字请求是为了与服务器进行交互通信握手言和,取得信任。
5.这样再跳转过去真正请求的时候就不会往验证码页面跳转了。
6.一切ok!你需要的就在眼前!
7.为防止反爬,后台需要间隔N秒模仿多种浏览器(useragent)去请求。
8.有些网站根据ip反爬,需要变换ip(代理ip)
9.有些网站对浏览器版本有要求,这需要您关注useragent
代码就不在此放出了,有需要请邮箱:1814076604@qq.com
加载全部内容