搜索
查看: 2265|回复: 1

[Other] 反爬虫技术

[复制链接]

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2017-10-26 10:04:01 | 显示全部楼层 |阅读模式

在与反爬虫的对抗中,我们爬虫的大招有两个,其一是多种ip跟换方式(例如adsl|代理|tor等请参看之前的文章)。其二是无头浏览器,使用自动化的技术来进行自动数据抓取,模拟鼠标与键盘事件,可以用于破解验证码,js解析,诡异的模糊数据这类型的反爬虫技术。

1 phantomjs原理说明:

无头浏览器不是什么闹鬼的东西,他也称为无界面浏览器,他本身是用来做自动化测试的,不过似乎更适合用来搞爬虫。他的官方网址是:http://phantomjs.org/quick-start.html 如果想看他的中文api的话我整理了一份资料在:这里(https://www.urlteam.org/2016/08/phantomjs-api-中文版-无界面浏览器-js处理的爬虫/)。

下载之后会得到个一个exe文件,linux下也一样。在命令行则是在该文件的目录下输入 phantomjs  就算是用该浏览器启动你的爬虫代码。



上一篇:shell之brew for mac
下一篇:肿瘤细胞反而难以重编程为iPSC
回复

使用道具 举报

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
 楼主| 发表于 2017-10-26 10:05:47 | 显示全部楼层
PhantomJS是一个基于WebKit的服务器端JavaScript API,它基于 BSD开源协议发布。PhantomJS无需浏览器的支持即可实现对Web的支持,且原生支持各种Web标准,如DOM 处理、JavaScript、CSS选择器、JSON、Canvas和可缩放矢量图形SVG。PhantomJS主要是通过JavaScript和CoffeeScript控制WebKit的CSS选择器、可缩放矢量图形SVG和HTTP网络等各个模块。PhantomJS主要支持Windows、Mac OS、Linux三个平台,并且提供了对应的二进制安装包,读者可在下载页面选择对应的版本下载解压即可使用。GitHub上还提供了GitHub、Google Code、BitBucket等各种方式的源码下载地址。

PhantomJS 的使用场景如下:

无需浏览器的Web测试:无需浏览器的情况下进行快速的Web测试,且支持很多测试框架,如YUI Test、Jasmine、WebDriver、Capybara、QUnit、Mocha等。

页面自动化操作:使用标准的DOM API或一些JavaScript框架(如jQuery)访问和操作Web页面。

屏幕捕获:以编程方式抓起CSS、SVG和Canvas等页面内容,即可实现网络爬虫应用。构建服务端Web图形应用,如截图服务、矢量光栅图应用。

网络监控:自动进行网络性能监控、跟踪页面加载情况以及将相关监控的信息以标准的HAR格式导出。

PhantomJS 已形成了一个功能非常强大的生态圈内容,相关项目如下:

CasperJS:一个开源的导航脚本处理和高级测试工具

Poltergeist:测试工具Capybara的测试驱动

Guard::Jasmine:能够基于Rails实现自动化测试Jasmine的Specs

GhostDriver:远程 WebDriver 有线协议的开源实现

PhantomRobot:PhantomJS机器人测试框架

Mocha-PhantomJS:JavaScript测试框架Mocha的客户端

此外,生态圈还包括基于PhantomJS实现了众多截屏工具,如capturejs、pageres、phantomjs-screenshots、manet、screenshot-app等;以及Node.js、Django、PHP、Sinatra等语言的截图API和Confess、GhostStory、Grover等众多工具。

PhantomJS当前最新版本是1.9,称为樱花(Sakura)。有趣的是PhantomJS的每个发布版本都以花来命名,PhantomJS 1.8叫作蓝色冬日玫瑰(Blue Winter Rose),PhantomJS 1.7叫作鲜艳的植物(Blazing Star),PhantomJS 1.6 叫作薰衣草(Lavender)等

接下来的2.0版本是一个非常重要的版本,该版本的开发工作已经完成,目前开发团队正在准备各个平台上的二进制版本以及相关文档的完善,相信很快就会有发布新闻。更多关于PhantomJS的信息,请登录其官网或托管在GitHub上的站点查看
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-10-21 16:52 , Processed in 0.027848 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.