從2012年開始,幾乎人人(至少是互聯網界)言必稱大數據,似乎不和大數據沾點邊都不好意思和別人聊天。從2016年開始,大數據系統逐步開始在企業中進入部署階段,大數據的炒作逐漸散去,隨之而來的是應用的蓬勃發展期,一些代表成熟技術的標志性IPO在國內外資本市場也不斷出現。轉眼間,大數據幾年前經歷的泡沫正在無可爭議地轉移到人工智能身上。可以說,在過去的一年,AI所經歷的共同意識“大爆炸”與當年的大數據相比,有過之而無不及。最近風口又轉移到區塊鏈上了,某種程度上也成為業內人士焦慮的一種誘因了。
但無論技術熱點如何變換,我們能看到的是,隨著行業沉下心來進行實質的落地,大數據生態也越來越細分。今天就我和大家來談談大數據領域的一些新變化、新趨勢。
一、數據治理與安全 Data Governance& Security
就發展趨勢而言,這個可以放在第一位來講講。
多年來,數據已經在企業中不斷快速積累。物聯網(IoT) 更是不斷加速數據的生成。
對于許多企業來說,大數據的解決方案就是利用類似于開源的Apache Hadoop等技術作為基礎支持,創建數據湖(Data Lake),即創建整個企業的數據管理平臺,用于以本機格式存儲企業的所有數據。數據湖將通過提供一個單一的數據存儲庫來消除信息孤島,整個組織都可以使用該存儲庫來進行業務分析、數據挖掘等各種應用。當有了數據湖之后,大家會傾向于認為這東西將會成為一個全方位和萬能的大數據集,例如點擊流數據、物聯網數據、日志數據等都會被要求進入這個湖中,而這些數據很難處理的問題卻會被忽略。
二、致力于協作的數據工作臺發展
在大多數大型企業里,大數據的采用是從少數獨立項目開始的,個推也是如此:譬如這里做一點Hadoop集群,那里用一用分析工具,跑一個簡單業務模型,以及意識到需要設立一些新的職位(數據科學家、首席數據官)等等。
現在,業務場景越來越豐富,異質性也越來越突出,各種各樣的工具在整個企業范圍內得到了使用。在公司的組織范圍內,集中化的“數據科學部門”正在逐漸讓位于更加去中心化的組織,原因在于集中化的部門越來越走向瓶頸,也更容易造成資源的流失。
這個由數據科學家、數據工程師以及數據分析師組成的群體,正日益嵌入到不同的業務部門里。因此,對于平臺來說需求已經很明顯了,那就是要讓一切都能協作到一起來,因為大數據的成功正是建立在設立一條由技術、人以及流程組成的裝配線基礎之上的。
因此,一些全新的協作平臺類型(譬如 Jupyter等)正在加快出現,引領著所謂的DataOps(與DevOps對應)領域的發展。
我們擁有國內頂級的設計、技術團隊和多年互聯網軟件開發經驗。