在數字經濟時代,未來每個企業都是數字企業。數字企業都必須有自己的大數據處理體系。而今天我們介紹的,便是張溪夢眼中每個企業大數據處理體系中最基礎和最根本的部分——大數據采集平臺。
我們總體上可以將企業大數據的體系分成“3+1”,即采集與存儲平臺、分析與挖掘平臺、洞察與決策平臺,以及覆蓋全局的數據安全平臺。采集與存儲平臺的主要職責是對企業的相關大數據進行收集,并將采集到的數據存儲起來。這是企業的數據資產。它也是未來數字企業的最重要資產之一。
分析與挖掘平臺的主要職責是對企業采集到的大數據進行專門的分析、BI等,以及在此基礎上進一步的數據挖掘、人工智能等。
洞察與決策平臺的主要職責是利用大數據分析的結果產生對商業的洞察、決策,以及與之對應的行動等。
數據安全平臺的主要職責是負責確保數據的安全性,保證企業的數據資產不受到損害,例如數據不丟失、不損壞、不被竊、不被改等。
一般而言,企業可以不用自己擁有專門的大數據分析與挖掘平臺,可以租用第三方的專業工具;但企業必須自己要有相應的商業洞察、決策與行動能力;同時,企業也必須擁有自己的數據,必須有數據的所有權。
也即是說,企業必須有數據采集與存儲平臺,這樣才能擁有自己的大數據資產。這是未來數字企業的核心!如果數據不在自己手中,或者自己沒有數據,則一切的所謂大數據都將變成空中樓閣。在虛擬的數字世界,同樣存在“巧婦難為無米之炊”啊!
一,大數據的三個層次
在未來的數字企業中,大數據采集與存儲平臺將占據非常重要的位置。將來自各種數據源的原始大數據采集回來、存儲起來,這便相當于企業的大數據原油。如果一個國家沒有原油,就只有全部采用進口了。這就相當于把命脈交給了別人、被別人把控。
一般而言,大數據采集與存儲平臺一般也可以分為三個層次,即數據采集層、預處理層和存儲層。同時,大數據采集平臺還需要一個覆蓋全局的數據安全體系。
采集層負責采集企業各種來源的大數據;預處理層負責對采集回來的數據進行一些規范化的處理;存儲層則是將預處理后的大數據進行存儲,將企業大數據資產用一種方式保存起來。數據安全體系和上文所提到的數據安全平臺一樣。
值得注意的是,當存儲技術足夠好、存儲設備成本足夠低容量足夠大時,或許就可以不用預處理層了。
二,大數據采集和處理平臺框架
大數據采集是一個很復雜的工程。其復雜性主要有三點,第一,數據源非常復雜;第二,實時化比較難;第三,存儲和管理、保證安全比較難。有大數據專家認為,這些復雜性使大數據采集有四類典型技術難題。
第一,各種智能設備中的運行數據是企業大數據的一個重要來源。在這種大數據采集中,很重要的一部分是大數據的智能感知,它能實現大數據源的智能識別、感知、信號轉換、適配、傳輸、載入等技術。尤其是智能設備的數據中,還會涉及結構化、半結構化、非結構化等各種數據,這與以前的純粹結構化數據采集會有巨大不同,也因此而存在許多需要克服的技術難題。在智能制造、可穿戴設備等產業數字化、物聯網越來越發普及的今天,智能設備的數據采集變得非常重要。
第二,社交網絡、電商或官方網站、APP應用是企業大數據的另一個重要來源。在這種大數據采集中,高速高可靠數據爬取或采集技術、高速大數據預處理技術、視頻語音等流數據的實時采集技術是當前需要重點突破的技術方向。同時,采用哪種方法采集,例如埋點或無埋點方法,也是當前非常重要的突破方向。
第三,存儲也將越來越成為大數據的關鍵問題。隨著一切產品與物質的智能化、數字化,數據量正以前所未有的速度迅猛擴大。如果沒有一套成熟的數據存儲和管理方案,我們也終究無法利用這些巨量的數據。大數據專家們一致認為,大數據的索引技術,以及大數據的移動、備份、復制等技術是當前技術難點。
第四,隱私與安全是大數據采集中面臨的另一道難關。對于隱私,目前采集的界限就很難界定。一些數據一旦采集了便涉及到隱私,不采集又會損失很多重要信息;數據如何利用算是侵犯隱私,怎樣才算是合法利用……這些問題,看上去是屬于道德或法律范疇,但其實也是和技術實現手段息息相關。另外,如何保證數據不受損、不被修改、不被偷窺、不被偷竊,則是當前大數據采集所要重點解決的安全問題。這會涉及隱私保護和推理控制、數據真偽識別和取證、數據持有完整性驗證等技術。
三,數據采集制度規范的重要性
值得注意的,大數據的采集還有一件事情非常重要,即整個企業要有一套完整、規范的數據管理體系。這個數據管理體系包括數據采集流程,以及數據管理制度。