大数据

hadoop笔记1–单机和伪分布式模式

hadoop是处理大数据的得力帮手,它主要分为三种模式: 单机模式;伪分布式模式;完全分布式模式; 在这篇文章中,主要来看看在CentOS7中进行hadoop的单机和伪分布式的环境搭建。(在Ubuntu下安装也一样。) 因为自己设备的条件,就先在虚拟机里搭建伪分布式的环境来进行hadoop的学习。 …

大数据

Phonix的搭建

需求分析 HBase中,一般的查询都是通过rowkey过滤的,这样查询的速度才能够快。但是如果设计到一个表中的多个字段的组合查询还想速率不低效,仅仅只有一个rowkey就行不通了。这时就可以设计二级索引来解决这类的问题。在源表中,把不是rowkey却要查询过滤的字段提出来,作为一张新表的rowkey…

大数据

大数据Hadoop之HBase认识

Apache HBase 1.HBase是什么 1)HBase的产生背景? 随着数据规模越来越大,大量业务场景开始考虑数据存储的水平扩展,使得存储服务可以快速执行客户端发来的请求,而目前的关系型数据库更专注一台机器。海量数据量存储成为提升应用性能的瓶颈,单台机器无法负载海量的数据处理,随之而来的出现…

大数据

Spark 6. RDD 持久化

RDD 持久化 原文地址: http://spark.apache.org/docs/latest/programming-guide.html仅限交流使用,转载请注明出处。如有错误,欢迎指出! Henvealf/译 Spark中一个很重要的能力就是可以将一个数据集通过操作持久化(或者说缓存)到内存…