zookeeper简介 zookeeper是一个为分布式应用所设计的开源协调服务。为用户提供同步、配置管理、分组和命名等服务。目的为减轻分布式应用所承担的协调任务。 可使用zookeeper提供的接口方便的实现一致性、组管理、leader选举及某些协议。 zookeeper安装 zookeeper可以在不同的系统

时间: 标签: zookeeper 阅读全文»

Pig Latin语言简介 与传统的关系数据库中的操作非常相似,但是更侧重于查询与分析 程序员无需关心运行效率,更专注于程序的编写 通常安照以下流程来编写 通过一条load语句从文件系统中读取数据 通过一系列“转换”语句对数据进行处理 通过一条store语句把处理结果输出到文件系统中,或者通过DUMP语句输出到屏幕上

时间: 标签: Pig 阅读全文»

什么是pig ? Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该编译器会把请求自动优化并处理MapReduce运算,这样使Pig易于编程,不用担心效率。自动对集群分配和回收。 Pig可加载数据、表达转换数据以及存储最终结果。Pig可扩展使用Java中添加的自定义

时间: 标签: Pig 阅读全文»

频繁模式挖掘 比如“尿布与啤酒的故事”,尿布与啤酒的经常一同出现便是一组频繁模式,还有例如购物篮数据分析、交叉购物、DNA序列分析、预测分析。 经典的频繁模式挖掘包括Apriori算法、fpgrowth算法、AGM算法、PrefixSapn算法等等… 使用命令:mahout fpg来进行频繁模式挖掘 聚类和分类

时间: 标签: Mahout 阅读全文»

了解 apache Mahout主要是建立可伸缩的机器学习算法。针对大规模的数据。 apache Mahout的算法运行在hadoop下,通过mapreduce实现。也可不依赖hadoop,即非分布式算法。 该项目主要包括以下五部分:— 频繁模式挖掘:挖掘数据中频繁出现的项集— 聚类:将文本、文档之类的数据分成局部相

时间: 标签: Mahout 阅读全文»

Rest和Thrift接口 hbase的rest和thrift接口支持xml、protobuf、和二进制数据编码等操作 java API 大体包括:hbase自身管理部分、avro部分、hbase客户端部分、mapreduce部分、rest部分、thrift部分、zookeeper等等。 使用Eclipse开发H

时间: 标签: HBase 阅读全文»

主从架构 由HRegion和HMaster服务器构成,HMaster负责管理,所有的通信和协调由zookeeper处理. HBase逻辑上的表被划分成多个HRegion,分别存储到HRegion服务器集群中。HMaster中存的是数据到Hregion的映射 HRegion分为:HLOG(存储数据日志)和HRegion

时间: 标签: HBase 阅读全文»

了解hbase hbase是apache hadoop的数据库,能够对大数据提供随机、实时的读写访问功能。具有开源、分布式、可扩展及面向列存储的特点。 hbase存储的是松散型数据,可以理解为key和value的映射关系,但它还有此外其他特性。 数据从逻辑上看像一张很大的表,并且数据列可以根据需要动态增加 向下

时间: 标签: HBase 阅读全文»

hive网络(web ui)界面 目前0.13.x版本还未集成hive-hwi-0.13.x.war包,所以只有根据源码打个war包了。我用的是0.8.1的war包,照样跑。 在hive-site.xml里配置hvie主机地址和端口,还有war包的路径 输入hive —service hwi命令,仔细看看报错没。如果

时间: 标签: hive 阅读全文»

了解Hive Hive是一个基于hadoop文件系统之上的数据仓库架构 提供数据ETL(抽取、转化和加载)工具、数据存储管理和大型数据集的查询和分析 支持类似SQL的语句,不提供排序和查询缓存,不提供在线事物处理和实时的查询和记录级的更新,只能处理不变的大数据集 将外部命令解析成MapRecude计划,交给集群处理

时间: 标签: hive 阅读全文»

了解hdfs文件结构 1. NameNode的文件结构:初始化dfs的时候会产生以下目录文件 ${dfs.name.dir}/current/VERSION-包含java属性文件,hdfs版本信息-重点说一下namespaceID,第一次格式化的时候便会创建。各个DataNode节点和此处的必须一样,否者不可用。如果

时间: 标签: hadoop 阅读全文»

安装ecilpse hadoop插件: 下载hadoop-eclipse-plugin-1.1.2.jar放在eclipse plugins下. 进入eclipse 打开window—>preferences里配置hadoop Map/Reduce里hadoop的安装路径(就是hadoop解压后的文件目录,最后

时间: 标签: hadoop 阅读全文»

Sides

IT技术分享博客