大数据脑图
大数据
云计算
1、云服务
- SaaS
- PaaS
- LaaS
2、Openstack
3、Docker
分布式计算
1、hadoop
- HDFS(分布式文件系统)
- Mapreduce(计算框架)
- yarn(资源管理平台)
- pig(piglatin语句到mapreduce的映射)
- hive(数据仓库,提供SQL)
- mahout(机器学习算法的mapreduce实现库)
2、spark
- RDO
- Spark SQL
- Spark Streaming(流处理)
- MLlib(用于机器学习)
3、storm
- Topology
- 和KAFKA集合
数据分析工具
1、R语言
2、matlab
3、SAS
算法
1、机器学习
- 聚类
- 时间序列
- 推荐系统
- 回归分析
- 文本挖掘
- 决策树
- 支持向量机
- 贝叶斯分类
- 神经网络
2、一致性
- paxos
- raft
- gossip
3、数据结构
- 栈、队列、链表
- 散列表
- 二叉树、红黑树、B树
- 面
4、常用算法
- 排序
- 最大子数组
- 最长公共子序列
- 最小生成树
- 最短路径
- 矩阵的存储和运算