非結構化數據

車品覺
Dec 31, 2019
2 min read

Updated: Apr 28

當提及大數據時，我們免不了聽到結構化、半結構化和非結構化數據這類術語。然而，結構化數據佔所有數據的比例不到兩成，而非結構化和半結構化數據是增長最快速的數據類別，在物聯網來臨之際，企業能夠管理和分析這類數據的能力變得愈來愈重要。這些從前被忽略的零散訊息，如今卻成為了人類探索「真相」的必經之路。所以很多企業趨之若鶩的數字化轉型過程中，千萬不能忽略數據的性質也在演變，下面簡單介紹一下它們的差別：

結構化數據：結構化數據是最容易搜索和組織的數據，因為它通常包含在行和列中，其元素可以影射到固定的預定義字段。例如Excel表格中存儲的數據就是典型的結構化數據。在結構化數據中，實體可以組合在一起以形成關係（比如「客戶」對「購買產品」）。這使得結構化數據易於存儲、分析和搜索，可以遵循數據庫設計出數據模型，比如按區域、產品或客戶提供銷售紀錄。

非結構化數據：非結構化數據不會包含在行列數據庫中，且沒有明顯關聯的數據模型，例如行車的軌跡路徑及速度。缺乏結構使得這些數據更難搜索、管理和分析，這就是為什麼企業容易丟棄非結構化數據的原因。直到機器學習的進步，令搜索、管理和分析這些數據變得更加容易，我們關注的非結構化數據開始包括了照片、視頻和音頻文件、文本文件、社交媒體內容、衞星圖像、演示文稿等。

半結構化數據：除了結構化和非結構化數據，還有第三類數據，總的來說就是兩者的混合。半結構化數據具有一些經定義或一致的特徵，但不符合關係數據庫預期那樣的結構。這類數據可以用特定的屬性（如語義標記或元數據）組織歸類，但數據保留了一定的靈活性。電子郵件就是一個很好的例子，雖然實際內容是非結構化的，但它確實包含結構化數據，如發件人和收件人的姓名和電子郵件地址、發送的時間等。另一個例子是數碼照片，圖像本身是非結構化的，但如果照片是透過智能手機拍攝，它將是日期和時間標記、地理標記，並且具有設備ID。照片可以被打上標籤，構成一個結構，如「狗」或「寵物」。很多被歸類為非結構化的數據，其實都屬半結構化，因為它包含一些分類特徵。

當前我們對數據更廣泛的定義，很大程度上讓企業對數據的營運模式帶來衝擊。為了彌補這些能力的缺失，企業有必要重新審視在數據生命周期中與競爭對手的差距。企業應該要明白到全新的數據營運模式，是更具外部性的競爭，更需要技術的支援。