豫ICP备17040950号-2

Java网页爬虫

功能进阶

1、Java网页爬虫,最基础的功能,是能爬取某个页面的html源码。
2、图形化界面。
3、爬取某个页面的html源码,以及页面需要的静态资源(图片、css和js)。
4、爬取某个页面的html源码,以及页面中的链接指向的页面的html源码,并且不断地延伸爬取。

整个开发过程,需要用到网络编程、正则表达式、I/O流、图形界面编程、事件监听、多线程等。为了简化开发,还需要用到一些外部jar包,比如jsoup。

Hadoop单词计数

前言

上文中,已经搭建好了hadoop平台。接下来,小编利用hadoop来实现单词的计数的功能,视频教程参见慕课网Kit_Ren同学的《Hadoop大数据平台架构与实践——基础篇》。

要求:计算文件中出现每个单词的频数,输入结果按照字母顺序进行排序。
输入:

1
2
3
hello world bye world
hello hadoop bye hadoop
bye hadoop hello hadoop

输出:

1
2
3
4
bye     3
hello 3
hadoop 4
world 2

在Ubuntu16.04上安装Hadoop

前言

专业方向,选择了大数据,那就在这方面深入研究一下。什么是大数据?正如字面意思,大量的数据。举个例子,Mysql的一张表里存了1万条数据,查询没问题;100万条数据,查询也没问题;那么,1亿条数据?100亿条数据?更大的数据?

大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。

为了处理大量的数据,我们必须找到更好的办法。谷歌经过研究,发表了一些关于大数据解决方案的论文,涉及MapReduce、BigTable、GFS等。但是,谷歌开发的大数据处理平台,并没有开源。一些勤奋的同学根据谷歌发表的论文,搞出了Hadoop平台,后来成为一个主流的大数据处理平台,也就是接下来一段时间小编要学习的平台。