功能进阶
1、Java网页爬虫,最基础的功能,是能爬取某个页面的html源码。
2、图形化界面。
3、爬取某个页面的html源码,以及页面需要的静态资源(图片、css和js)。
4、爬取某个页面的html源码,以及页面中的链接指向的页面的html源码,并且不断地延伸爬取。
整个开发过程,需要用到网络编程、正则表达式、I/O流、图形界面编程、事件监听、多线程等。为了简化开发,还需要用到一些外部jar包,比如jsoup。
专业方向,选择了大数据,那就在这方面深入研究一下。什么是大数据?正如字面意思,大量的数据。举个例子,Mysql的一张表里存了1万条数据,查询没问题;100万条数据,查询也没问题;那么,1亿条数据?100亿条数据?更大的数据?
大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。
为了处理大量的数据,我们必须找到更好的办法。谷歌经过研究,发表了一些关于大数据解决方案的论文,涉及MapReduce、BigTable、GFS等。但是,谷歌开发的大数据处理平台,并没有开源。一些勤奋的同学根据谷歌发表的论文,搞出了Hadoop平台,后来成为一个主流的大数据处理平台,也就是接下来一段时间小编要学习的平台。