今天數(shù)據(jù)正在以前所未有的速度產(chǎn)生,每一個(gè)新的技術(shù)都將進(jìn)一步推動(dòng)這種趨勢(shì)。物聯(lián)網(wǎng)(IoT)、機(jī)器學(xué)習(xí)和醫(yī)療保健數(shù)字化,產(chǎn)生數(shù)據(jù)的速度很快就達(dá)到每秒數(shù)百萬(wàn)千兆字節(jié)。根據(jù)IMB的一項(xiàng)研究,自動(dòng)駕駛汽車也將很快加入——到2020年每秒將生成350MB的數(shù)據(jù)。
數(shù)據(jù)的產(chǎn)生與收集已經(jīng)在企業(yè)中根深蒂固,時(shí)刻上演著大量數(shù)居的記錄與分析。但是,這些數(shù)據(jù)的存儲(chǔ)庫(kù)并不總是結(jié)構(gòu)化和一致的。事實(shí)上,未知的和未使用的數(shù)據(jù)催生了一個(gè)新的術(shù)語(yǔ)——“黑暗數(shù)據(jù)”。
如果我們不改變存儲(chǔ)、管理、結(jié)構(gòu)和分析數(shù)據(jù)的方式,大部分?jǐn)?shù)據(jù)都將變得毫無(wú)價(jià)值。IMB同一研究表明,今天收集的所有數(shù)據(jù)中有80%是“黑暗的”,也就是說,這些數(shù)據(jù)是無(wú)效和不連貫的。未來數(shù)據(jù)量越大,“黑暗數(shù)據(jù)”引發(fā)的黑洞也就越大,導(dǎo)致的問題與挑戰(zhàn)就越嚴(yán)重。
存儲(chǔ)和安全
最大的挑戰(zhàn)是,“黑暗數(shù)據(jù)”不僅難以分析,而且也容易導(dǎo)致存儲(chǔ)問題。大量的非結(jié)構(gòu)化數(shù)據(jù)——MS Office文件、即時(shí)消息、電子郵件、社交媒體帖子等形式獲得的數(shù)據(jù)就屬于此范疇。