top of page

非結構化數據

Updated: Apr 28

當提及大數據時,我們免不了聽到結構化、半結構化和非結構化數據這類術語。然而,結構化數據佔所有數據的比例不到兩成,而非結構化和半結構化數據是增長最快速的數據類別,在物聯網來臨之際,企業能夠管理和分析這類數據的能力變得愈來愈重要。這些從前被忽略的零散訊息,如今卻成為了人類探索「真相」的必經之路。所以很多企業趨之若鶩的數字化轉型過程中,千萬不能忽略數據的性質也在演變,下面簡單介紹一下它們的差別:

結構化數據:結構化數據是最容易搜索和組織的數據,因為它通常包含在行和列中,其元素可以影射到固定的預定義字段。例如Excel表格中存儲的數據就是典型的結構化數據。在結構化數據中,實體可以組合在一起以形成關係(比如「客戶」對「購買產品」)。這使得結構化數據易於存儲、分析和搜索,可以遵循數據庫設計出數據模型,比如按區域、產品或客戶提供銷售紀錄。

非結構化數據:非結構化數據不會包含在行列數據庫中,且沒有明顯關聯的數據模型,例如行車的軌跡路徑及速度。缺乏結構使得這些數據更難搜索、管理和分析,這就是為什麼企業容易丟棄非結構化數據的原因。直到機器學習的進步,令搜索、管理和分析這些數據變得更加容易,我們關注的非結構化數據開始包括了照片、視頻和音頻文件、文本文件、社交媒體內容、衞星圖像、演示文稿等。

半結構化數據:除了結構化和非結構化數據,還有第三類數據,總的來說就是兩者的混合。半結構化數據具有一些經定義或一致的特徵,但不符合關係數據庫預期那樣的結構。這類數據可以用特定的屬性(如語義標記或元數據)組織歸類,但數據保留了一定的靈活性。電子郵件就是一個很好的例子,雖然實際內容是非結構化的,但它確實包含結構化數據,如發件人和收件人的姓名和電子郵件地址、發送的時間等。另一個例子是數碼照片,圖像本身是非結構化的,但如果照片是透過智能手機拍攝,它將是日期和時間標記、地理標記,並且具有設備ID。照片可以被打上標籤,構成一個結構,如「狗」或「寵物」。很多被歸類為非結構化的數據,其實都屬半結構化,因為它包含一些分類特徵。

當前我們對數據更廣泛的定義,很大程度上讓企業對數據的營運模式帶來衝擊。為了彌補這些能力的缺失,企業有必要重新審視在數據生命周期中與競爭對手的差距。企業應該要明白到全新的數據營運模式,是更具外部性的競爭,更需要技術的支援。

Recent Posts

See All
AI預算黑洞 根源在架構設計

過去兩年。美國眾企業不約而同墮入一個速成陷阱: 認為購買了一個模型、聘請幾位演算法工程師、便能成功實現人工智能 (AI) 落地。然而,即使模型選擇正確數據卻 難以整合;數據成功整合,系統卻無法運行;系統成功運行,但業務部門不會操作;即使學會操作,3個月後模型又變得過時。 問題根源其實不在模型,而在架構。猶如建造大樓,若設計圖存在缺陷,再昂貴的材料也難以支撐。許多企業投入巨資購買「鋼筋水泥」(模型和

 
 
智能代理編程戰 懂人機協作致勝

上周把兩個消息放在一起看,很有意思。 第一個,Anthropic宣布Claude Code推出Artifacts,讓軟件工程師在寫程式的過程中,業務主管能同時打開網頁儀表板,就能看到軟件即時更新及開發的狀態。 第二個,中國人民大學和微軟亞洲研究院聯合推出一個叫Arbor開源自主人工智能體的新框架,系統能自動提出假設、修改代碼,運行真實實驗並從結果中學習,自動優化解決問題。 過去一年大家比併的是模型

 
 
集結舊手機算力 媲美當今伺服器

你可曾想過,你抽屜裏那部4年前的舊手機,可能很有價值? 這個星期,Google Research聯同加州大學聖地牙哥分校(UCSD)公布一項創新計劃:運用2000部退役的Pixel手機,構建一個真實可用的雲端計算平台。這不僅是概念驗證,更是一個供數百名學者與研究人員實際操作的生產級環境。處理方式十分直接,將舊手機的熒幕、電池、外殼全部移除,僅保留主機板,透過Kubernetes技術組成叢集,直接轉

 
 
bottom of page