MySQL?Flink實時流處理的核心技術之窗口機制
更新時間:2023年05月09日 09:43:34 作者:奔跑如風
Flink是一款流處理框架,窗口機制是其核心技術之一。Flink的窗口機制可以將無限的數(shù)據(jù)流劃分為有限的窗口,并對窗口內的數(shù)據(jù)進行處理。Flink的窗口機制支持時間、計數(shù)、會話等多種窗口類型,并且可以在不同的窗口之間進行流轉換和數(shù)據(jù)聚合,是實時流處理中非常重要的技術
1.為什么要學窗口
流式計算,一般有兩種場景:
- 無限制的流式計算,比如:wordcount案例,它沒有任何外部的限制條件,這種情況不多。
- 有限制的流式計算,比如:統(tǒng)計早高峰時間內經過某個道路的車輛數(shù)。
對于第二種情況來說,我們需要加上額外的限制條件。最常用的限制條件就是時間了。
這個時間段,在程序中,就用一個窗口來表示。
也就是說,窗口的作用:把流式計算轉換為批量計算,窗口是流轉批的一個橋梁。
這就是為什么要學窗口的原因了。
2.Flink中的窗口
在Flink中,窗口可以分為如下幾類:
- 滾動窗口(Tumble)
- 滑動窗口(hop、Slice)
- 會話窗口(session)
- 漸進式窗口(cumulate)
- 聚合窗口(over)
3.滾動窗口(Tumble)
3.1 概念
滾動窗口 :窗口大小 = 滾動距離(時間間隔)
特點:上一個窗口的結束就是下一個窗口的開始,數(shù)據(jù)不重復、也不丟失。
3.2 案例SQL
#1.創(chuàng)建source表
CREATE TABLE source_table (
user_id STRING,
price BIGINT,
`timestamp` bigint,
row_time AS TO_TIMESTAMP(FROM_UNIXTIME(`timestamp`)),
watermark for row_time as row_time - interval '0' second
) WITH (
'connector' = 'socket',
'hostname' = 'node1',
'port' = '9999',
'format' = 'csv'
);
#2.語法
tumble(事件時間列,窗口大小)
窗口大小是用戶自定義的。比如30分鐘、1小時等。
直接把tumble窗口放在group by語句后即可。
比如:tumble(row_time,interval '5' second)
含義:定義一個5秒大小的滾動窗口。
#3.數(shù)據(jù)處理
select
user_id,
count(*) as pv,
sum(price) as sum_price,
UNIX_TIMESTAMP(CAST(tumble_start(row_time, interval '5' second) AS STRING)) * 1000 as window_start,
UNIX_TIMESTAMP(CAST(tumble_end(row_time, interval '5' second) AS STRING)) * 1000 as window_end
from source_table
group by
user_id,
tumble(row_time, interval '5' second);到此這篇關于MySQL Flink實時流處理的核心技術之窗口機制的文章就介紹到這了,更多相關MySQL Flink窗口機制內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
您可能感興趣的文章:
相關文章
DataGrip的MySQL數(shù)據(jù)導出和導入操作超詳細指南
很多時候我們會遇到需要將本機數(shù)據(jù)庫數(shù)據(jù)導出或者其他數(shù)據(jù)庫數(shù)據(jù)的導入操作,這篇文章主要給大家介紹了關于DataGrip的MySQL數(shù)據(jù)導出和導入操作超詳細指南,文中通過圖文介紹的非常詳細,需要的朋友可以參考下2024-04-04

