top of page

數據採集非愈多愈好

Updated: Apr 28

數據驅動的第一步是數據獲取,或者叫數據採集,也是最重要而又最容易被忽略的環節之一。記得當年在阿里的時候,馬總(集團主席馬雲)一再強調大數據的採集方式應該是recording而非capturing,因為recording更追求全量數據的密集收取。這是兩種截然不同的數據採集策略,前者以需求為導向,所以範圍可控,治理成本比較低;後者很容易給人一種數據愈多愈好的錯覺。難怪到了2014年馬總都忍無可忍地提出,繼續無止境的收集,賺錢部門都給你們(數據部門)打工了。可見這世上並沒有數據愈多愈好的道理,商業講求的就是實效,數據多也會成為負擔。事實上,以目標導向去收窄採集範圍,更容易建立規範包括內容格式、時效、標準及收集的最佳方式。

嚴格把關 保障私隱

大數據的特質(海量、多源、異構)注定了外部合作的必要性和不穩定的本質,因此選擇、識別、分析、評估及維護有價值的數據來源很重要,必要時還要為重要的數據來源作雙重備份。但是,無論外部還是內部數據的獲取,大數據在選擇採用的時候,穩定性、完整性、品質、合規都要一併考慮到;所以在獲取外部數據時,必須要釐清責任,避免合規風險。

政府作為最大的公共數據資源方,可以做些什麼?我認為國內提出的公共數據管理辦法,所帶動的政企合作方式(數據專區)必然會成為未來的重要數據來源。國際上也有協力廠商會預先把多方數據收集及整理後再供應給市場使用,例如提供消費者數據分層及標籤的Acxiom、提供個人信用資訊的Experian、提供位置資訊的Factual、利用機器學習把全球日常衞星圖像轉化為資訊源的Planet。在國內更容易見到的是提供企業徵信的數據服務公司。可想而知,企業在數據獲取時必須具備外部視角,而且應該從戰略制定時就考慮到。另外,數據獲取的深度及寬度必須匹配其使用方式的需要,這牽涉到企業的發展階段,我的建議是早期的公司更適合以應用為基礎,切勿過早追求大而全。

鑑於普羅大眾對數據私隱的關注,企業必須優先考慮到個人私隱和合規性的問題,數據獲取包括協力廠商數據服務的合法性必定要嚴格把關。即使有使用者的授權許可,數據脫敏(數據去私隱化)仍然是擁有大量數據的公司必須考慮的重要事項。在這一方面的標準化工作,國內其實比較做得早,2015年我作為全國信標委副組長的時候,已經提出了數據流程通的前提是建基於數據安全標準的落實。

Recent Posts

See All
AI預算黑洞 根源在架構設計

過去兩年。美國眾企業不約而同墮入一個速成陷阱: 認為購買了一個模型、聘請幾位演算法工程師、便能成功實現人工智能 (AI) 落地。然而,即使模型選擇正確數據卻 難以整合;數據成功整合,系統卻無法運行;系統成功運行,但業務部門不會操作;即使學會操作,3個月後模型又變得過時。 問題根源其實不在模型,而在架構。猶如建造大樓,若設計圖存在缺陷,再昂貴的材料也難以支撐。許多企業投入巨資購買「鋼筋水泥」(模型和

 
 
智能代理編程戰 懂人機協作致勝

上周把兩個消息放在一起看,很有意思。 第一個,Anthropic宣布Claude Code推出Artifacts,讓軟件工程師在寫程式的過程中,業務主管能同時打開網頁儀表板,就能看到軟件即時更新及開發的狀態。 第二個,中國人民大學和微軟亞洲研究院聯合推出一個叫Arbor開源自主人工智能體的新框架,系統能自動提出假設、修改代碼,運行真實實驗並從結果中學習,自動優化解決問題。 過去一年大家比併的是模型

 
 
集結舊手機算力 媲美當今伺服器

你可曾想過,你抽屜裏那部4年前的舊手機,可能很有價值? 這個星期,Google Research聯同加州大學聖地牙哥分校(UCSD)公布一項創新計劃:運用2000部退役的Pixel手機,構建一個真實可用的雲端計算平台。這不僅是概念驗證,更是一個供數百名學者與研究人員實際操作的生產級環境。處理方式十分直接,將舊手機的熒幕、電池、外殼全部移除,僅保留主機板,透過Kubernetes技術組成叢集,直接轉

 
 
bottom of page