ETL、ELT、数据管道及其相关tool

E: Extraction

在这里插入图片描述

raw data sources:
在这里插入图片描述

在这里插入图片描述

T: transformation

在这里插入图片描述

D： data loading

在这里插入图片描述

popular ETL tools

就是顺序变化了一下，先load再transform

因为big data的出现，ELT热起来了。

特点：
在这里插入图片描述

和 ETL的区别：

在这里插入图片描述

特性

设计准则

在这里插入图片描述

batch or Streaming Data

准确性 VS 及时性

batch data

在这里插入图片描述

streaming data

在这里插入图片描述
应用场景：

数据管道相关tools 以及 techmologies

常规的技术要求：

在这里插入图片描述
tools :

FOR streaming data：

cut

顾名思义，就是用来截取部分doc内容或string内容

-d ： (delimited) 使用的分隔符号
-f：选取的filed
-c: (character) 选取的字符

举个例子：
在这里插入图片描述
tr

translate 的过滤器，可以translate，squeeze, delete 操作

-s : 压缩重复出现的字符
-d: 删除指定的字符

举例子：

在这里插入图片描述