Skip to content

Commit

Permalink
使用太记桌面版同步
Browse files Browse the repository at this point in the history
  • Loading branch information
Gezi-lzq committed Nov 2, 2024
1 parent 1af7d69 commit e65b604
Show file tree
Hide file tree
Showing 2 changed files with 44 additions and 0 deletions.
28 changes: 28 additions & 0 deletions tiddlers/认识 HBase.tid
Original file line number Diff line number Diff line change
@@ -0,0 +1,28 @@
created: 20241102144435865
creator: Gezi-lzq
modified: 20241102144734873
modifier: Gezi-lzq
tags: 大数据
title: 认识 HBase

Apache HBase 是一个分布式、面向列的开源数据库,构建在 Hadoop 文件系统(HDFS)之上。它主要用于处理大型数据集,尤其是那些在传统的关系型数据库(RDBMS)中难以管理的数据量。HBase 的设计受到了 Google 的 Bigtable 的启发,旨在提供一种对大规模数据进行实时读写的能力。

面向列的存储模型 :

* HBase 的存储模型是基于列族(Column Family)的,而不是传统的行存储模型。每个列族可以有多个列,列的数据可以在时间维度上进行版本管理。

* 这种设计使得 HBase 对于稀疏数据、高变数据和频繁列操作(例如时间序列数据)非常高效。

分布式架构 :

* HBase 构建在 HDFS 之上,利用 HDFS 的分布式文件存储能力来存储海量数据。数据被分片存储在多个节点上,这样便于水平扩展。

* 在 HBase 中,每个表按行键被分割成多个区域(Region),这些区域可以在集群的不同节点上独立存储和管理。

高可用性和容错性 :

* HBase 利用 Hadoop 的生态系统来提供高可用性和容错性。数据的冗余存储和自动故障恢复机制确保了系统的稳定性。

支持实时读写 :

* 和许多批处理系统不同,HBase 支持高吞吐量的低延迟读写操作,这使得它特别适合需要快速数据存取的应用场景。
16 changes: 16 additions & 0 deletions tiddlers/认识 Hive.tid
Original file line number Diff line number Diff line change
@@ -0,0 +1,16 @@
created: 20241102144825910
creator: Gezi-lzq
modified: 20241102145424781
modifier: Gezi-lzq
tags:
title: 认识 Hive

Apache Hive 是一个基于 Hadoop 的数据仓库系统,用于在分布式存储系统上进行大规模数据的存储、查询和分析。Hive 提供了一种称为 HiveQL 的查询语言,这种语言类似于 SQL,使得熟悉 SQL 的用户能够轻松地在 Hadoop 上执行数据查询和分析。

HiveQL 提供了一种类似于 SQL 的查询语言,使得用户无需深入了解 MapReduce 等底层实现,即可在 Hadoop 上执行复杂的查询操作。

Hive 定义了数据的存储结构(如表、分区和桶),并将这些结构映射到 HDFS 上的文件系统,使得用户可以像使用传统数据仓库一样管理和查询数据。

Hive 维护一个中央元数据存储库(Metastore),用于存储表的模式、数据的位置、分区信息等元数据。Metastore 是 Hive 关键的一部分,提供数据的管理和组织。

HiveQL 查询会被解释和编译成 MapReduce、Tez 或 Spark 任务,利用这些分布式计算框架在 Hadoop 集群上执行。

0 comments on commit e65b604

Please sign in to comment.