理解4V特性共同點

車品覺
Oct 18, 2023
2 min read

過去10年間，大數據的發展深深地影響大型AI（人工智能）模型（如深度學習和機器學習模型）的進步及應用。隨着大數據的普及與可訪問性增加，大規模模型訓練呼之欲出。雲計算及先進的數據分析技術，使我們能夠處理和分析之前無法處理的非結構化數據（例如文章、影像等），從而訓練出更複雜的模型，如BERT和GPT-4等大規模語言模型的應用。然而，筆者覺得大數據和大型語言模型（LLM）之間存在許多相似性，值得用家們參考，這些共通點可以通過大數據的「4V」特性來理解：Volume（體量）、Velocity（速度）、Variety（多樣性）和Veracity（真實性）。一、體量：大數據和LLM都需要處理大量數據。處理這些數據的成本包括硬體、軟件、人力等資源。同時，數據的保護和私隱也是重要成本。當然更值得我們深思的是，往後走下去，數據量真是愈多愈好嗎？還是會出現飽和現象？二、速度：在大數據和LLM中，處理速度至為重要。大數據需要快速捕獲、儲存、處理和分析，而LLM需要快速處理和理解輸入的文本數據，以滿足用戶的實時需求，但追求速度的背後，當然是高昂成本及投資回報。三、多樣性：大數據和LLM都要處理多種來源的數據。處理和分析不同類型數據，可以讓我們從多個角度理解一個問題，從而獲得更全面的洞察。那麼大模型是否會像大數據一樣，需要有很多小模型作為交接點，從而產出價值？四、真實性：大數據的價值和LLM的表現，很大程度上取決於數據的質量。但因多源異構的關係，數據質量是無法像小數據作清洗及驗證，因此在使用時都要格外小心及作多方驗證，甚至僅可以作為大方向指引，或者與傳統分析一併使用。當處理大數據和LLM時，還需要考慮數據的私隱和安全問題。對於大數據，監管主要關注是如何收集、儲存和使用數據，以及如何保護數據的安全和私隱。對於LLM，雖然亦需要保護訓練數據的私隱，但更重要的是，如何確保模型生成的文本不會洩露敏感訊息。毋庸置疑，LLM具有巨大的潛力，可以提高生產力，甚至幫助獲取新的知識和技能。我們需要在創意與效率之間找到平衡，筆者建議企業或個人在使用GPT類似的產品時，最好先從自己熟悉的範疇開始，學習如何與人工智能合作，最好預設它不一定會給你最準確的答案，而是提供較有創意但又模糊（Probabilistic）的建議供參考。