資料抽取
8 資料抽取
功能概述
資料抽取是指從來源資料庫中抽取原始資料到快取記憶體庫,它可以保證秒級獲取大量的資料結果,提高系統性能。
系統支援資料抽取功能的模組有:自助資料集、視覺化查詢、SQL查詢、原生SQL查詢、預存程序查詢、Java查詢、匯總分析、樞紐分析、載入Excel資料。
資料抽取功能的機制如下:
1)資料集或分析確定結果欄位。
2)發起資料抽取指令後,從來源資料庫中將欄位的所有資料抽取到快取記憶體庫,在快取記憶體庫的“DEFAULT”節點下生成對應的視圖和欄位:

3)再次查詢當前資料集或分析的資料時,從快取記憶體庫獲取資料。
注:
1、資料抽取功能必須在當前資料集已儲存的前提下才能被啟動使用。
2、系統支援“視覺化查詢”、“匯總分析”和“自助資料集”通過資料行權限控制資料抽取的結果。
3、除“自助資料集”外,其它資料集如果包含參數,則只會抽取參數預設值相關的資料,如果參數沒有預設值,將無法正常完成抽取。
入口及介面
1、非自助資料集及匯總分析:在已儲存的非自助資料集或匯總分析的編輯介面,按一下工具列上的抽取按鈕(
),打開“資料抽取設定”視窗。

2、自助資料資料集:在已儲存的自助資料集的編輯介面,先按一下工具列上的抽取按鈕(
),再按一下旁邊的設定(
),打開“資料抽取設定”視窗。

設定說明
非自助資料集和匯總分析的資料抽取功能不支援“增量抽取”。
“資料抽取”視窗中的設定項說明如下:
介面介紹
分類
功能說明
抽取方式
即時
表示不抽取。其中,自助資料集的不抽取設定通過即時按鈕(
)實現。
全量抽取
清空資料
勾選清空資料:清空快取資料並重新抽取。
勾除清空資料:保留每次抽取的資料記錄,並再次抽取所有資料。 注:勾除清空資料時,使用者需要在定義資料集時,增加識別字欄位用於區分抽取資料的歷史版本。詳情請參考資料抽取範例。
增量抽取
增量抽資料按時間戳記
指與上次抽取結果中最大時間對比,將大於這個時間的資料進行集中抽取。
目前只有自助資料集支援增量抽取,且只有自助資料集中含有時間資訊的欄位才支援增量抽取。
增量欄位
表示與上次抽取結果的最大時間進行比對的欄位,必須將記錄了時間資訊的欄位做為增量欄位。
時間格式
時間格式用於將非DATE或非DATETIME類型的增量欄位進行格式轉化。例如:若增量欄位為“訂單日期”,“訂單日期”是“string”類型,數值是“20150101”,則我們需要設定其時間格式為“YYYYMMDD”。
忽略抽取當天資料
表示不包含當天的增量資料。
覆蓋最後抽取的N天資料
表示根據時間戳記,重新抽取並覆蓋快取記憶體庫中當前自助資料集的最後N天資料。目前只支援Vertica類型的快取記憶體庫允許“覆蓋最後抽取的N天資料”設定項。
異常處理
復原
表示返回到資料抽取前的狀態。
繼續
表示繼續抽取下一條資料,並將這條錯誤資料寫入異常日誌,供使用者下載查看異常原因。
執行使用者
資源創建者
表示當前自助資料集的創建使用者,將只抽取該創建使用者擁有的資料行權限內的資料。
特定使用者
表示指定抽取的使用者,通過使用者名和密碼指定,將抽取該指定使用者擁有的資料行權限內的資料。
抽取時間
立即抽取
表示立即抽取資料到快取記憶體庫。
定時抽取
表示根據時間計畫將資料定時抽取到快取記憶體,其中定時抽取通過建立計畫任務實現,詳情請參見計畫章節。
上表中的“執行使用者”設定項用於保證:只允許抽取資源創建者資料行權限內的資料。目前只有“視覺化查詢”、“匯總分析”和“自助資料集”的資料抽取受資料行權限控制。
資料抽取範例
當選擇“全量抽取”並勾除“清空資料”時,使用者需要在定義資料集時,增加識別字欄位用於區分抽取資料的歷史版本。
如下範例中增加了“日期標識”欄位,用日期來區分不同時間抽取的資料。
範例效果
在快取記憶體庫中瀏覽該資源的資料,結果如圖,抽取的資料:

設定方法
1、抽取2013-01-01的資料。
1)點擊SQL查詢工具列的資料抽取按鈕,如圖:

2)彈出“資料抽取設定”介面,選擇“全量抽取”後,點擊立即抽取:

2、抽取2013-01-02的資料。
1)點擊SQL查詢工具列的資料抽取按鈕進行抽取。
2)彈出“資料抽取設定”介面,選擇“全量抽取”,勾除“清空資料”後,點擊立即抽取:

3、進行資料預覽。
1)在快取記憶體庫找到該資源,選中該資源,右鍵>資料集監控管理 >瀏覽資料,如圖:

2)瀏覽資料效果如圖:

Last updated
Was this helpful?