Wormhole 是一个一站式流式处理云平台解决方案(SPaaS - Stream Processing as a Service)。
Wormhole 面向大数据流式处理项目的开发管理运维人员,致力于提供统一抽象的概念体系,直观可视化的操作界面,简单流畅的配置管理流程,基于 SQL 即可完成的业务逻辑开发方式,并且屏蔽了流式处理的底层技术细节,极大的降低了数据项目管理运维门槛,使得大数据流式处理项目的开发管理运维变得更加轻量敏捷可控可靠。
- 统一 DAG 高阶分形抽象
- 构建由 Source DataSys,Kafka Topic,Spark Stream(Flink Stream),Sink DataSys 组成的物理 DAG
- 每个物理 DAG 里可以并行处理多个由 Source Namespace,Flow,Sink Namespace 组成的逻辑 DAG
- 每个 Flow 本身是典型的 Spark RDD DAG
- 统一通用流消息 UMS 协议抽象
- UMS 是 Wormhole 定义的流消息协议规范
- UMS 试图抽象统一所有结构化消息
- UMS 自身携带结构化数据 Schema 信息
- Wh4 支持用户自定义半结构化 JSON 格式
- 统一数据逻辑表命名空间 Namespace 抽象
- Namespace 唯一定位所有数据存储所有结构化逻辑表
- [Data System].[Instance].[Database].[Table].[Table Version].[Database Partition].[Table Partition]
- 支持可视化,配置化,SQL 化开发实施流式项目
- 支持指令式动态流式处理的管理,运维,诊断和监控
- 支持统一结构化 UMS 消息和自定义半结构化 JSON 消息
- 支持处理增删改三态事件消息流
- 支持单个物理流同时并行处理多个逻辑业务流
- 支持流上 Lookup Anywhere,Pushdown Anywhere
- 支持基于业务策略的事件时间戳流式处理
- 支持 UDF 的注册管理和动态加载
- 支持多目标数据系统的并发幂等入库
- 支持多级基于增量消息的数据质量管理
- 支持基于增量消息的流式处理和批量处理
- 支持 Lambda 架构和 Kappa 架构
- 支持与三方系统无缝集成,可作为三方系统的流控引擎
- 支持私有云部署,安全权限管控和多租户资源管理
Wormhole 有 Flow 和 Stream 的概念,支持在一个物理 Stream(对应一个 Spark Stream)里通过并行处理多个逻辑 Flow,使得 User 可以更加精细灵活的利用计算资源,User 也可以对 Stream 进行精细化参数配置调整以更好平衡需求和资源
Please refer to Wormhole用户手册.
Please download the latest RELEASE.
- Mailing list: [email protected]
- WeChat: edpstack
Wormhole is under the Apache 2.0 license. See the LICENSE file for details.