使用太记桌面版同步

Gezi-lzq · Nov 2, 2024 · e65b604 · e65b604
1 parent 1af7d69
commit e65b604
Show file tree

Hide file tree

Showing 2 changed files with 44 additions and 0 deletions.
diff --git a/tiddlers/认识 HBase.tid b/tiddlers/认识 HBase.tid
@@ -0,0 +1,28 @@
+created: 20241102144435865
+creator: Gezi-lzq
+modified: 20241102144734873
+modifier: Gezi-lzq
+tags: 大数据
+title: 认识 HBase
+
+Apache HBase 是一个分布式、面向列的开源数据库，构建在 Hadoop 文件系统（HDFS）之上。它主要用于处理大型数据集，尤其是那些在传统的关系型数据库（RDBMS）中难以管理的数据量。HBase 的设计受到了 Google 的 Bigtable 的启发，旨在提供一种对大规模数据进行实时读写的能力。
+
+面向列的存储模型 ：
+
+* HBase 的存储模型是基于列族（Column Family）的，而不是传统的行存储模型。每个列族可以有多个列，列的数据可以在时间维度上进行版本管理。
+
+* 这种设计使得 HBase 对于稀疏数据、高变数据和频繁列操作（例如时间序列数据）非常高效。
+
+分布式架构 ：
+
+* HBase 构建在 HDFS 之上，利用 HDFS 的分布式文件存储能力来存储海量数据。数据被分片存储在多个节点上，这样便于水平扩展。
+
+* 在 HBase 中，每个表按行键被分割成多个区域（Region），这些区域可以在集群的不同节点上独立存储和管理。
+
+高可用性和容错性 ：
+
+* HBase 利用 Hadoop 的生态系统来提供高可用性和容错性。数据的冗余存储和自动故障恢复机制确保了系统的稳定性。
+
+支持实时读写 ：
+
+* 和许多批处理系统不同，HBase 支持高吞吐量的低延迟读写操作，这使得它特别适合需要快速数据存取的应用场景。
diff --git a/tiddlers/认识 Hive.tid b/tiddlers/认识 Hive.tid
@@ -0,0 +1,16 @@
+created: 20241102144825910
+creator: Gezi-lzq
+modified: 20241102145424781
+modifier: Gezi-lzq
+tags: 
+title: 认识 Hive
+
+Apache Hive 是一个基于 Hadoop 的数据仓库系统，用于在分布式存储系统上进行大规模数据的存储、查询和分析。Hive 提供了一种称为 HiveQL 的查询语言，这种语言类似于 SQL，使得熟悉 SQL 的用户能够轻松地在 Hadoop 上执行数据查询和分析。
+
+HiveQL 提供了一种类似于 SQL 的查询语言，使得用户无需深入了解 MapReduce 等底层实现，即可在 Hadoop 上执行复杂的查询操作。
+
+Hive 定义了数据的存储结构（如表、分区和桶），并将这些结构映射到 HDFS 上的文件系统，使得用户可以像使用传统数据仓库一样管理和查询数据。
+
+Hive 维护一个中央元数据存储库（Metastore），用于存储表的模式、数据的位置、分区信息等元数据。Metastore 是 Hive 关键的一部分，提供数据的管理和组织。
+
+HiveQL 查询会被解释和编译成 MapReduce、Tez 或 Spark 任务，利用这些分布式计算框架在 Hadoop 集群上执行。