【Hive SQL】使用正则表达式做数据清洗

使用正则表达式做数据清洗

正则表达式语法

正则表达式语法

在操作大数据时，通常需要将某些数据进行清洗后再进行操作，某些不规则数据清洗需要用到正则表达式。正则表达式是一种匹配模式，可以进行字符匹配和位置匹配。

基本语法

语法	解释
英文	A-Za-z
数字	0-9
()	标记一个子表达式的开始和结束的位置，括号内表示一个连续的表达式；如果要匹配小括号，需要用\转义，例如：()
[]	定义匹配的字符范围，例如：[a-zA-Z]表示匹配大小写英文字符
{}	定义匹配范围的长度，例如：{1}表示匹配一次，{1,}表示匹配大于等于1次，{2,3}表示匹配大于等于2小于等于3次
*	匹配子表达式零次或多次
+	匹配子表达式1次或多次
?	匹配子表达式0次或1次
\	转义字符
^	表示非的意思，例如：[^>]* 表示非>的字符可以有0次或多次

\d	匹配一个数字字符，等价于[0-9]
\D	匹配一个非数字字符，等价于[^0-9]
\w	匹配字母、数字、下划线，等价于[A-Za-z0-9_]
\W	匹配非字母、数字、下划线，等价于[^A-Za-z0-9_]
.	匹配除换行符（\n、\r）之外的任何单个字符

字符串函数

MaxCompute SQL中使用字符串函数对指定字符串进行灵活处理，详情可以见：https://help.aliyun.com/document_detail/48973.html?utm_content=g_1000230851&spm=5176.20966629.toubu.3.f2991ddcpxxvD1#title-of8-230-1g4

REGEXP_REPLACE

string regexp_replace(string <source>, string <pattern>, string <replace_string>[, bigint <occurrence>])

命令说明

将source字符串中第occurrence次匹配pattern的子串替换成指定字符串replace_string后返回结果字符串。

参数说明

source：必填。STRING类型，待替换的字符串。
pattern：必填。STRING类型常量或正则表达式。待匹配的模型。更多正则表达式编写规范，请参见正则表达式规范。pattern为空串时返回报错。
replace_string：必填。STRING类型，将匹配pattern的字符串替换后的字符串。
occurrence：可选。BIGINT类型常量，必须大于等于0，表示将第occurrence次匹配的字符串替换为replace_string，为0时表示替换所有匹配的子串。为其他类型或小于0时，返回报错。默认值为0。
实例说明

在做埋点访客量统计时，url后面有单号的需要做清洗，将单号去除，只留下url，例如
www.baidu.com/query/OO99238842934/RR99382333，清洗后的数据为：www.baidu.com/query
url = ‘www.baidu.com/query/OO99238842934/RR99382333’

regexp_replace(url,'([\/]{1}[A-Z]{2,}[0-9]{5,})*', '')

正则表达式中的()很重要说明括号内的是一个完整需要匹配的子表达式，如果没有小括号会认为需要匹配url中所有的/、大写字母和数字

Hive SQL

SELECT
			dt,
			url,
			(case
				when site_id in ('110077') then regexp_replace(url,'([\/]{1}[A-Z]{2,}[0-9]{5,})*', '')
			    else url
			end) as url_cleaned
FROM url_info;