-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
Showing
2 changed files
with
44 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,28 @@ | ||
created: 20241102144435865 | ||
creator: Gezi-lzq | ||
modified: 20241102144734873 | ||
modifier: Gezi-lzq | ||
tags: 大数据 | ||
title: 认识 HBase | ||
|
||
Apache HBase 是一个分布式、面向列的开源数据库,构建在 Hadoop 文件系统(HDFS)之上。它主要用于处理大型数据集,尤其是那些在传统的关系型数据库(RDBMS)中难以管理的数据量。HBase 的设计受到了 Google 的 Bigtable 的启发,旨在提供一种对大规模数据进行实时读写的能力。 | ||
|
||
面向列的存储模型 : | ||
|
||
* HBase 的存储模型是基于列族(Column Family)的,而不是传统的行存储模型。每个列族可以有多个列,列的数据可以在时间维度上进行版本管理。 | ||
|
||
* 这种设计使得 HBase 对于稀疏数据、高变数据和频繁列操作(例如时间序列数据)非常高效。 | ||
|
||
分布式架构 : | ||
|
||
* HBase 构建在 HDFS 之上,利用 HDFS 的分布式文件存储能力来存储海量数据。数据被分片存储在多个节点上,这样便于水平扩展。 | ||
|
||
* 在 HBase 中,每个表按行键被分割成多个区域(Region),这些区域可以在集群的不同节点上独立存储和管理。 | ||
|
||
高可用性和容错性 : | ||
|
||
* HBase 利用 Hadoop 的生态系统来提供高可用性和容错性。数据的冗余存储和自动故障恢复机制确保了系统的稳定性。 | ||
|
||
支持实时读写 : | ||
|
||
* 和许多批处理系统不同,HBase 支持高吞吐量的低延迟读写操作,这使得它特别适合需要快速数据存取的应用场景。 |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,16 @@ | ||
created: 20241102144825910 | ||
creator: Gezi-lzq | ||
modified: 20241102145424781 | ||
modifier: Gezi-lzq | ||
tags: | ||
title: 认识 Hive | ||
|
||
Apache Hive 是一个基于 Hadoop 的数据仓库系统,用于在分布式存储系统上进行大规模数据的存储、查询和分析。Hive 提供了一种称为 HiveQL 的查询语言,这种语言类似于 SQL,使得熟悉 SQL 的用户能够轻松地在 Hadoop 上执行数据查询和分析。 | ||
|
||
HiveQL 提供了一种类似于 SQL 的查询语言,使得用户无需深入了解 MapReduce 等底层实现,即可在 Hadoop 上执行复杂的查询操作。 | ||
|
||
Hive 定义了数据的存储结构(如表、分区和桶),并将这些结构映射到 HDFS 上的文件系统,使得用户可以像使用传统数据仓库一样管理和查询数据。 | ||
|
||
Hive 维护一个中央元数据存储库(Metastore),用于存储表的模式、数据的位置、分区信息等元数据。Metastore 是 Hive 关键的一部分,提供数据的管理和组织。 | ||
|
||
HiveQL 查询会被解释和编译成 MapReduce、Tez 或 Spark 任务,利用这些分布式计算框架在 Hadoop 集群上执行。 |