top of page

理解4V特性共同點

過去10年間,大數據的發展深深地影響大型AI(人工智能)模型(如深度學習和機器學習模型)的進步及應用。隨着大數據的普及與可訪問性增加,大規模模型訓練呼之欲出。雲計算及先進的數據分析技術,使我們能夠處理和分析之前無法處理的非結構化數據(例如文章、影像等),從而訓練出更複雜的模型,如BERT和GPT-4等大規模語言模型的應用。 然而,筆者覺得大數據和大型語言模型(LLM)之間存在許多相似性,值得用家們參考,這些共通點可以通過大數據的「4V」特性來理解:Volume(體量)、Velocity(速度)、Variety(多樣性)和Veracity(真實性)。 一、體量:大數據和LLM都需要處理大量數據。處理這些數據的成本包括硬體、軟件、人力等資源。同時,數據的保護和私隱也是重要成本。當然更值得我們深思的是,往後走下去,數據量真是愈多愈好嗎?還是會出現飽和現象? 二、速度:在大數據和LLM中,處理速度至為重要。大數據需要快速捕獲、儲存、處理和分析,而LLM需要快速處理和理解輸入的文本數據,以滿足用戶的實時需求,但追求速度的背後,當然是高昂成本及投資回報。 三、多樣性:大數據和LLM都要處理多種來源的數據。處理和分析不同類型數據,可以讓我們從多個角度理解一個問題,從而獲得更全面的洞察。那麼大模型是否會像大數據一樣,需要有很多小模型作為交接點,從而產出價值? 四、真實性:大數據的價值和LLM的表現,很大程度上取決於數據的質量。但因多源異構的關係,數據質量是無法像小數據作清洗及驗證,因此在使用時都要格外小心及作多方驗證,甚至僅可以作為大方向指引,或者與傳統分析一併使用。 當處理大數據和LLM時,還需要考慮數據的私隱和安全問題。對於大數據,監管主要關注是如何收集、儲存和使用數據,以及如何保護數據的安全和私隱。對於LLM,雖然亦需要保護訓練數據的私隱,但更重要的是,如何確保模型生成的文本不會洩露敏感訊息。 毋庸置疑,LLM具有巨大的潛力,可以提高生產力,甚至幫助獲取新的知識和技能。我們需要在創意與效率之間找到平衡,筆者建議企業或個人在使用GPT類似的產品時,最好先從自己熟悉的範疇開始,學習如何與人工智能合作,最好預設它不一定會給你最準確的答案,而是提供較有創意但又模糊(Probabilistic)的建議供參考。

Recent Posts

See All
AI重新定義網安行業

如果你在5年前問我網絡安全行業會走向何方,我會告訴你一個穩定增長的答案;但到了今天,答案完全不同。這個行業正在經歷一場結構性的重塑─不是線性的擴張,而是多重力量的疊加爆發。 全球網絡安全市場在2026年已達2480億美元,預計2034年將增長到7000億美元,年複合增長率13.8%。然而,更有趣的是某顧問公司的另一個數字,人工智能(AI)正在把這個市場的總可及規模推高至2萬億美元。為什麼?因為網絡

 
 
AI引發全球工作大洗牌

人工智能(AI)正在以深刻且不可逆轉的方式重塑經濟,以美國為例,從勞動力市場崗位結構到企業競爭格局,從生產率增長到行業營運模式,AI的影響已開始滲透到經濟體的核心。AI創造新機會的同時,也在打破舊有秩序。 美國哈佛大學的一項研究,透過分析美國人口普查數據,建構了「職業流失率」這一獨特指標。研究發現,1990年至2017年間,美國勞動力市場經歷了非常穩定的低流失期,但從2019年開始,變革驟然而至,

 
 
歐洲AI開闢新路向

我之前在文章裏說過,人工智能(AI)競爭正在從技術參數之爭,轉向「數據管道、標準制定、規模落地」的全鏈條控制權之爭。最近歐洲的舉動,恰好印證這個判斷,也帶來一個有趣的問題:歐洲AI能否走出一條有別於中美的新道路? 德國上月啟動了「人工智能創新園」,總投資數十億歐羅,號稱歐洲迄今最完整的AI產業集群。布局的方向很明確:工業AI、智能製造、自動駕駛、智能物流、AI倫理與安全,全是「製造業+人工智能」的

 
 
bottom of page