資料倉儲是什麼?

ATian
Jul 22, 2021

--

資料倉儲簡介及延伸,的整理XD

資料倉儲

較簡易的解釋方式

資料倉儲(DW,data warehouse)是一種資訊系統的資料儲存「理論」,此理論強調利用某些特殊資料儲存方式,讓所包含的資料,特別有利於分析處理,以產生有價值的資訊並依此作決策。

利用資料倉儲方式所存放的資料,具有一但存入,便不隨時間而更動的特性,同時存入的資料必定包含時間屬性,通常一個資料倉儲皆會含有大量的歷史性資料,並利用特定分析方式,自其中發掘出特定資訊。

較學術的解釋方式

資料倉儲主要功能乃是將組織透過資訊系統之線上交易處理(OLTP,Online transaction processing)經年累月所累積的大量資料,透過資料倉儲理論所特有的資料儲存架構,作一有系統的分析整理,以利各種分析方法如線上分析處理(OLAP)、資料採礦(Data Mining)之進行,並進而支援如決策支援系統(DSS)、主管資訊系統(EIS)之建立,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助建構商業智慧型(BI)。

資料倉儲的特性

  • 主題導向(Subject-Oriented)
    有別於一般OLTP(線上交易處理)系統,資料倉儲的資料模型設計,著重將資料按其意義歸類至相同的主題區(subject area),因此稱為主題導向。
    資料倉儲可以集中與特定主題相關的資訊,而不只是公司目前的營運資訊。
  • 整合性(Integrated)
    是指存放在資料倉儲的資料是從不同的來源合併,並且維持一貫有條理。資料來自企業各OLTP系統,在資料倉儲中是整合過且一致的。
  • 時間差異性(Time-Variant)
    說明資料倉儲以特定的時間點辨識儲存的資料。資料的變動,在資料倉儲中是能夠被紀錄以及追蹤變化的,有助於能反映出能隨著時間變化的資料軌跡。
  • 不變動性(Nonvolatile)
    資料倉儲中的資料只會持續增加,不會被移除,即使資料是錯誤的亦同。(i.e.錯誤的後續修正,便可因上述時間差異性的特性而被追蹤),這能夠使管理階層得到企業商務持續性的觀察。

資料庫、資料倉儲、資料倉儲系統的區別

資料倉儲是儲存大量資料的資料庫,與資料庫卻不盡然相同。資料庫儲存的資料與營運(Operation)相關,資料倉儲會在資料累積一段時間後,再整理、移轉至另一個資料系統中作資料分析。資料倉儲通常指的是儲存整合後資料的資料庫,而資料倉儲系統則泛指整個決策輔助系統,包括系統的軟硬體、資料與報表。

資料倉儲的類型

  • 企業資料倉儲(EDW)
    企業資料倉儲包含整個企業的資訊,由數個主題組成,例如客戶、產品、業務等面向,能夠用在決策支援,有即時資訊,也有彙總過的資訊。
  • 操作型資料商店(ODS,Operational Data Store)
    「操作」,是相對於資料倉儲的資訊性而言,ODS提供明細資料,特別是經過統整的近期資料,能夠供應即時報表的需求,作業型資料商店只能分析很近期內的資料,無法分析較長期的歷史資料。Bill Inmon在1995年發表的「The Operational Data Store」他認為ODS的資料集合是主題導向的、經過整合的,不過與資料倉儲不同之處在於,ODS的資料會流失,以當下的數值為主,不含歷史與累計資料,而且ODS資料能夠做到即時的整合性蒐集。ODS根據資料同步更新的頻率,將資料的轉送與儲存時程也有等級之分。
  • 資料市集(Data Mart)
    與資料倉儲的定義大致相同,資料倉儲涵蓋整個公司的資料與人員,而資料市集只包含特定範圍的資料,而且使用者會鎖定某一個工作群組的人員。一組資料市集可以組成一個企業資料倉儲,反之亦然。假設一個公司採取數個資料超市同時存在的模式,在定義相同維度的資料時發生歧異的狀況,將會使資料市集變成資料孤島(Data Island)。資料孤島對企業整體而言有很大的問題,整合的功用只限於部門群組,無法擴及整體資訊的統合,跨部門的資料分析無法進行,不同工作屬性無法連結的狀況下,如果有不同的跨部門資料分析,以往資料市集架構只能繼續以疊床架屋的方式累加,無法整合。
  • 虛擬資料倉儲(Virtual Data Warehouse)
    企業直接使用現有營運的資料庫,並輔助一些中介工具,進行有效資料處理,建構較快速,成功的機會高,可做到即時資料分析。
  • 資料市集如果以虛擬資料倉儲的方式表現,就變成混合式資料倉儲。需要的儲存空間比起企業資料倉儲少,由於資料已經儲存在一個經過正規化的資料環境,資料重組的過程會比透過應用程式讀取執行中的資料來得簡單,而且也不會影響執行中的資料庫。混合式資料倉儲也能夠應付資料市集遭遇到的資料孤島現象,透過虛擬的方式能夠彈性對應不同的需求。混合式倉儲(Hybrid Data Warehouse)

ODS、資料倉儲和資料超市之異同

ODS、資料倉儲和資料超市三者相同之處在於均不屬於任一OLTP系統,並且都是以資料導向的設計而非流程(process)導向。

相異之處在於

  • ODS的特性較著重於戰術性查詢,變動性大。
  • 資料倉儲通常為企業層級,用來解答即興式、臨時性的問題。
  • 資料超市則較偏向解決特定單位或部門的問題,部分採用維度模型(dimensional model)。

ETL

ETL(Extract-Transform-Load),用來描述將資料從來源端經過抽取(extract)、轉置(transform)、載入(load)至目的端的過程。
ETL一詞較常用在資料倉儲,但其物件並不限於資料倉儲。

ODS

操作型資料儲存(Operational Data Store)是一種資料架構或資料庫設計的「概念」,為企業提供即時的,操作型資料的集合。出現原因是來自於當需要整合來自多個系統的資料,結果又要給一或多個系統使用時。

整合來自多個系統的資料,應先建立資料模型(data model)。由於ODS並不屬於特定的系統,因此其資料模型的設計應為主題導向式(subject-oriented),實作方法與資料倉儲無異。ODS資料整合用於最低粒度的、一天內發生頻率最高的即時的或者近乎即時的查詢應用。通常ODS不會被設計成用來做歷史資料分析或者趨勢分析工作,那是資料倉儲的功能。ODS通常會被用來當做資料倉儲的資料來源。

相較於資料倉儲,ODS較偏向作業(operational)面的用途,通常資料有較頻繁的更新以及較短的歷史,用於即時或者接近即時地產生操作報告。但這主要是概念上的差異,實際建置時可以建立在同一平台上,由一份資料從事兩種性質的服務。

資料超市

資料市集(Data Mart),是資料倉儲(Data Warehouse)的一種特殊形式。正如資料倉儲,資料市集也包含對運算元據的快照,便於使用者基於歷史趨勢與經驗進行戰略決策。兩者關鍵的區別在於資料市集的建立是在有具體的、預先定義好了的對被選資料分組並組態的需求基礎之上的。組態資料市集強調對相關資訊的易連接性。

這樣各位有了解了嗎~

等實際應用到應該就會比較懂了!
希望之後懂更多再來分享!

--

--

ATian
ATian

Written by ATian

養了一隻橘貓,剛踏入社會的程式新手。在學習程式的過程中看到很多大神的程式分享及解說,也想要成為那樣的大神,所以開始寫medium,請多指教!