不编程也能爬虫？手把手教你如何从互联网采集海量数据

2016年7月12日 476点热度 0人点赞 0条评论

作者：赵一鸣摘自：微信公号“沙漠之鹰”

大数据文章-数据抓取交流学习群成立啦！

想要跟大神级别的本文作者同群交流学习爬虫？

想要跟小伙伴一起组团打怪爬下某网站并交流心得？

想获取第一手数据抓取咨询和工具？

点击文末“阅读原文”报名加入

◆ ◆ ◆

不少朋友都会问：几十万条租房，二手房，薪酬，乃至天气数据都是从哪里来的？其实这些数据在十几分钟内就可以采集到！

一般我会回答，我用专门的工具，无需编程也能快速抓取。之后肯定又会被问，在哪里能下载这个工具呢？

最近比较忙乱，说好的一大堆写作任务都还没有完成。授人以鱼不如授人以渔，我做了一个决定，将这套软件全部开源到GitHub。

免费使用，开放源代码！从此以后，估计很多做爬虫的工程师要失业了。。。因为我的目标是让普通人也能使用！

这篇文章介绍爬虫大概的原理，文末会有程序地址。

◆ ◆ ◆

什么是爬虫

什么是爬虫

互联网是一张大网，采集数据的小程序可以形象地称之为爬虫或者蜘蛛。

爬虫的原理很简单，我们在访问网页时，会点击翻页按钮和超链接，浏览器会帮我们请求所有的资源和图片。所以，你可以设计一个程序，能够模拟人在浏览器上的操作，让网站误认为爬虫是正常访问者，它就会把所需的数据乖乖送回来。

爬虫分为两种，一种像百度（黑）那样什么都抓的搜索引擎爬虫。另一种就是开发的，只精确地抓取所需的内容：比如我只要二手房信息，旁边的广告和新闻一律不要。

爬虫这样的名字并不好听，所以我给这套软件起名为Hawk，指代为"鹰"，能够精确，快速地捕捉猎物。基本不需编程，通过图形化拖拽的操作来快速设计爬虫，有点像Photoshop。它能在20分钟内编写大众点评的爬虫（简化版只需3分钟），然后让它运行就好啦、

下面是使用Hawk抓取二手房的视频，建议在wifi环境下观看：

◆ ◆ ◆

自动将网页导出为Excel

那么，一个页面那么大，爬虫怎么知道我想要什么呢？

人当然可以很容易地看出，上图的红框是二手房信息，但机器不知道。

网页是一种有结构的树，而重要信息所在的节点，往往枝繁叶茂。举个不恰当的比方，一大家子人构成树状族谱，谁最厉害？当然是：

孩子多，最好一生20个
孩子各个都很争气（生的孙子多）
最好每个孩子还都很像（清一色的一米八）

大家就会觉得这一家子太厉害了！

我们对整个树结构进行打分，自然就能找到那个最牛的节点，就是我们要的表格。找到最牛爸爸之后，儿子们虽然相似：个子高，长得帅，两条胳膊两条腿，但这些都是共性，没有信息量，我们关心的是特性。大儿子锥子脸，跟其他人都不一样，那脸蛋就是重要信息；三儿子最有钱——钱也是我们关心的。因此，对比儿子们的不同属性，我们就能知道哪些信息是重要的了。

回到网页采集这个例子，通过一套有趣的算法，给一个网页的地址，软件就会自动地把它转成Excel! （听不懂吧？听不懂正常，不要在意这些细节！）

◆ ◆ ◆

破解翻页限制

获取了一页的数据，这还不够，我们要获取所有页面的数据！这简单，我们让程序依次地请求第1页，第2页...数据就收集回来了

就这么简单吗？网站怎么可能让自己宝贵的数据被这么轻松地抓走呢？所以它只能翻到第50页或第100页。链家就是这样：