馬云說“人類正從IT時代走向DT (Data Technology) 時代”。
毋庸置疑,數據的重要性正在逐漸被認識到。而談起數據分析團隊耗時最多的一件事情,無它,唯獨數據的采集、清洗、整理。是的,太多采集到的數據需要整理,另外還有更多的數據需要去采集。
很多企業將大量時間花費在數據收集和整理上,總體來看有兩方面的原因:數據需求的不可預見性,不同業務數據的獨立性。
一,很多互聯網企業的業務都在飛速發展中,業務規模和產品都有很大的變更,產品經理或者數據分析師都很難在當下預測下個月甚至下一周的數據需求,要看數據的時候沒有數據,而采集數據需要耗費業務人員與工程人員較高的溝通成本,更甚者還涉及產品的版本發布協調排期;或者產品已經上線,但發現采集的數據是錯誤的,對于眾多app來說,只能等下次發版。總之,數據的供給總不是滿足不了業務的需求。以上場景還只是管中窺豹,但可以充分說明一點,數據的采集,清洗和處理已經耗費了大量時間,而數據源頭的堵塞又會進一步影響需要需要數據來支撐的業務決策的效率。
二,從另一個維度來看,企業內部會有銷售、市場、產品、運營、財務等不同部門,不同的部門在使用著傳統ERP、CRM或各類SaaS軟件,這些數據在不同的軟件里流動,相互之間完全斷裂,數據大而不可通用。最近賽門仕博的一些客戶反饋,他們內部有完善的后端交易數據,客戶屬性數據,這些還是具有遠見的老大在早期就開始籌備和收集,但是一段涉及到客戶進行數據分析的時候,同樣只得無奈,因為這些相對更新頻次較低的后臺數據無法實時反饋客戶當前的情況,對于一個半年前已經購買SaaS產品的客戶,如何能了解到他當前的使用狀況和對產品的滿意程度?后端數據需要與更實時的用戶行為數據結合才能反映實際問題。是的,前后端的數據需要打通,更大的價值才能產生。
三,越來越廉價的硬件,以及云的逐漸普及,使得擁有大量的數據對很多企業來說并不是難事。TB、PB這些曾經的海量數據單位,很多企業已經輕松跨越。但事實是,大量的企業將無數的時間、人力投入在海量數據的清洗整理和不同平臺數據的聚合上。要知道原始數據是混亂和無效的,并不能直接地傳達信息,更不代表決策和洞察。所以數據量越大,清洗和數據整理反而成了一項極其浩大而低價值的工作。而真正的價值,數據的分析,商業的洞察又必須建立在完成這些數據采集,清洗,管理,存儲等等一系列浩大的工程之后。
四,大部分企業將90%的時間花在埋點、標簽規范、數據存儲、管理、ad-hoc分析等低價值但是費時費力的事情上,而真正產生數據價值的業務分析只需要10%的時間,但是鮮有企業能夠達到。或者即便達到,卻需要經過一段長期的煎熬,無法快速達到數據分析反哺業務的階段。這產生的后果是災難性的,因為大量的決策是憑著直覺和經驗做出來的。但是今天互聯網圈的競爭和發展速度一日千里,無論是企業的高層管理者還是一線的PM,業務人員都需要快速地通過數據來反哺業務,做出有效的決策并快速行動。前段時間拜訪某大型互聯網公司負責人,作為創始人兼CEO的大佬開玩笑談到:“回想過去幾年的發展,仿佛是閉著眼睛開飛機,而且邊開還要邊修飛機,能快速發展到今天是幸運的。未來繼續做大做強,一定要合理的通過數據來決策。”
五,絕大部分的企業,在意識到要用數據驅動業務之后,數據量開始從B到TB,甚至到PB的增長,但卻反而淹沒在大量的數據中。這并不是方向錯誤,而是真正搭建一個好的數據分析基礎太難,從技術架構,平臺搭建,業務梳理,數據采集,商業分析,知識和技術跨度巨大,就像金字塔,每爬一個臺階都需要大量的投入。然而即便勤奮也是不夠的,因為你需要一個了解技術框架,能理解業務以及具備強大數據分析能力的人來領導這樣一個團隊。但這樣的人才,在國內拿望遠鏡也找不到。千兵易得,一將難求。
六,在美國,數據分析是一個相對成熟的產業。在每個環節——數據采集,不同來源的數據聚合整理,BI可視化,甚至市場、銷售、產品等每個維度,都有許許多多的公司能提供專業性服務。根據產業研究公司Wikibon在國外的數據研究顯示,在企業對數據工具投資當中,有52%的資金流向了用于采集和組織數據的技術之上,讓數據的獲取和分析變得更容易。但在國內,一定是遠遠達不到這樣的數據。一方面是企業對數據的認識,數據驅動業務的實踐摸索當中,企業負責人的認識還不夠成熟,另一方面是真正能夠提供專業服務的公司還不如美國成熟,缺乏專業的產品和服務。
DT時代來臨,企業應持具有遠見的戰略眼光迎接這個時代,充分利用數據的價值來驅動企業的健康和持續成長,但同時也應該意識到,“大”的數據本身也是問題。如何乘勢而上,需要借助專業外部產品和團隊,盡可能地解決可以通過外部解決的問題,讓數據分析師和業務人員將更多精力花在業務分析和數據決策以及行動上。