2016-11-26

Java网页爬虫

功能进阶

1、Java网页爬虫，最基础的功能，是能爬取某个页面的html源码。
2、图形化界面。
3、爬取某个页面的html源码，以及页面需要的静态资源（图片、css和js）。
4、爬取某个页面的html源码，以及页面中的链接指向的页面的html源码，并且不断地延伸爬取。

整个开发过程，需要用到网络编程、正则表达式、I/O流、图形界面编程、事件监听、多线程等。为了简化开发，还需要用到一些外部jar包，比如jsoup。

more >>

2016-11-24

Hadoop单词计数

前言

上文中，已经搭建好了hadoop平台。接下来，小编利用hadoop来实现单词的计数的功能，视频教程参见慕课网Kit_Ren同学的《Hadoop大数据平台架构与实践——基础篇》。

要求：计算文件中出现每个单词的频数，输入结果按照字母顺序进行排序。
输入：

1
2
3

hello world bye world
hello hadoop bye hadoop
bye hadoop hello hadoop

输出：

bye     3
hello   3
hadoop  4
world   2

more >>

2016-11-20

CentOS中MySQL重置密码

问题描述

在centos中，安装mysql时没有设置mysql密码。登录mysql，mysql -u root -p，两次回车，结果提示，“ERROR 1045 (28000): Access denied for user ‘root‘@’localhost’ (using password:NO)”。

more >>

2016-11-20

mysql设置root用户密码

设置mysql初始密码

一般mysql的root默认密码为空，如果之前没有设置过root密码，我们可以使用mysqladmin命令来修改root密码。
net start mysql
mysqladmin -u root -p password 123456

more >>

2016-11-18

在Ubuntu16.04上安装Hadoop

前言

专业方向，选择了大数据，那就在这方面深入研究一下。什么是大数据？正如字面意思，大量的数据。举个例子，Mysql的一张表里存了1万条数据，查询没问题；100万条数据，查询也没问题；那么，1亿条数据？100亿条数据？更大的数据？

大数据科学家JohnRauser提到一个简单的定义：大数据就是任何超过了一台计算机处理能力的庞大数据量。

为了处理大量的数据，我们必须找到更好的办法。谷歌经过研究，发表了一些关于大数据解决方案的论文，涉及MapReduce、BigTable、GFS等。但是，谷歌开发的大数据处理平台，并没有开源。一些勤奋的同学根据谷歌发表的论文，搞出了Hadoop平台，后来成为一个主流的大数据处理平台，也就是接下来一段时间小编要学习的平台。

more >>