极为方便的爬虫工具web scraper

2022年4月18日 245点热度 0人点赞 0条评论

图片


概述


在新型涉网案件中,登录涉案网站后台后通常需要分析其中的数据,如网站后台受害人信息和嫌疑人的资金流水,收支账号信息等。数据分析的前提是将页面的数据固定至本地,如果不会编写脚本的话只能人工一条数据一条数据的复制粘贴,步骤繁琐且效率低下,今天推荐给大家一个方便实用的爬虫工具web scraper,其操作方法简单,且适用范围较广,下面介绍使用方法:


一.安装


安装方法有两种,进入浏览器拓展商店搜索下载安装,或者从其他网站下载安装。


Chrome浏览器拓展商店可直接搜索web scraper下载安装,这里不做过多赘述,倘若从其他网站直接下载安装文件,得到的是一个crx文件,下面介绍一下安装步骤,此插件推荐使用Chrome浏览器,Edge浏览器或者火狐浏览器。

1.打开浏览器设置,找到拓展程序。


图片

2.打开浏览器开发者模式。

图片

3.将crx文件拖向浏览器,如果文件没有问题会弹出安装拓展窗口,没有弹出或者安装失败请更换网站重新下载。

图片

4.成功部署webscraper。

图片

二.小试牛刀


1.尝试抓取ping检测监测结果网页内容。

(1)首先打开爬取数据的网页,打开调试板(开发者工具),找到web scraper,点击进去。


可以通过右击网页页面选择检查,或按快捷键F12进入开发者模式

进来后就是这样一个页面,这里显示的是我们的爬取规则。

图片

(2)选择创建一个新的爬取规则,需要给规则起个名字,命名方式没有严格要求,然后需要添加爬取数据网站的URL http://mping.chinaz.com/?host=192.168.43.234

图片

(3)创建完规则后会自动进行到下图页面,需要我们补充具体的爬取规则,可以理解为让机器了解你需要哪些数据的方法。

图片

点击按钮,配置我们的方法

图片

这里简单介绍下web scraper可以爬取的类型,这一步的意义在于我们需要的数据类型,比如我需要爬取网站的所有图片,那就选择Image,如果我需要爬取整个网页那就选择HTML,这次我爬取的是文本类型的数据,所以选择Text,这也是最常用的格式。

图片

(4). 配置爬取规则

配置规则的方法很简单,你只需要通过鼠标点击Click here to hotkeys(点击此处热键)然后界定开始结束的数据范围,然后点击Done selecting(已完成选择)就可以了。

图片

可以通过选择数据颜色的变化判断哪些数据将被爬取,确认无误后就可以点击Done selecting(已完成选择)了。

图片

选择Sitemap ping(ping是我的爬取规则的名字)下的Scrape(刮)顺便提一下Web scraper的中文直译是网络刮刀。

图片

(5).运行及结果。

图片

爬取完成后会显示下图页面,不要担心点击一下refresh(刷新)就可以了。

图片

(6). 结果

这就是设定的规则抓取到的数据。

图片

数据支持导出

图片

图片

好了,今天就到这里了,这个可能只有实际操作网页才能弄透彻,希望大家动手实操,一起学习,一起进步!有问题的话欢迎随时联系我。

安全为先,洞鉴未来,奇安信盘古石取证团队竭诚为您提供电子数据取证专业的解决方案与服务。如需试用,请联系奇安信各区域销售代表,或致电95015,期待您的来电!

“盘古石”团队是奇安信科技集团股份有限公司旗下专注于电子数据取证技术研发的团队,由来自国内最早从事电子数据取证的成员组成。盘古石团队以“安全为先,洞鉴未来”为使命,以“漏洞思维”解决电子数据取证难题,以“数据驱动安全”为技术思想,以安全赋能取证,研发新一代电子数据取证产品,产品涵盖计算机取证、移动终端取证、网络空间取证、IoT取证、取证数据分析平台等电子数据取证全领域产品和解决方案,为包括公安执法、党政机关、司法机关以及行政执法部门等提供全面专业的支持与服务。

图片

76840极为方便的爬虫工具web scraper

这个人很懒,什么都没留下

文章评论