日韩av丝袜制服在线观看|久久人妻人人澡人人爽人人精品|蜜臀av一区二区三区蜜乳|丰满少妇人妻久久久久久动漫|亚洲精品区免费观看av

大數(shù)據(jù)
來源:作者:日期:2015-03-17 16:28:01點(diǎn)擊:14967次
大數(shù)據(jù)(big data,mega data),或稱巨量資料,指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
在維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶編寫的《大數(shù)據(jù)時(shí)代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的4V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。
 
中文名
大數(shù)據(jù)
外文名
big data,mega data
別    稱
巨量資料
提出者
維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶
提出時(shí)間
2008年8月中旬
應(yīng)用學(xué)科
計(jì)算機(jī)
v4特點(diǎn)
大量、高速、多樣、價(jià)值

定義

大數(shù)據(jù)與云計(jì)算的關(guān)系大數(shù)據(jù)與云計(jì)算的關(guān)系
對(duì)于“大數(shù)據(jù)”(Big data)研究機(jī)構(gòu)Gartner給出了這樣的定義。“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘,但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云存儲(chǔ)、虛擬化技術(shù)。
隨著云時(shí)代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關(guān)注。《著云臺(tái)》的分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)(Big data)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí)會(huì)花費(fèi)過多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過時(shí)間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)。

2技術(shù)盤點(diǎn)

HadoopMapReduce
思維模式轉(zhuǎn)變的催化劑是大量新技術(shù)的誕生,它們能夠處理大數(shù)據(jù)分析所帶來的3個(gè)V的挑戰(zhàn)。扎根于開源社區(qū),Hadoop已經(jīng)是目前大數(shù)據(jù)平臺(tái)中應(yīng)用率最高的技術(shù),特別是針對(duì)諸如文本、社交媒體訂閱以及視頻等非結(jié)構(gòu)化數(shù)據(jù)。除分布式文件系統(tǒng)之外,伴隨Hadoop一同出現(xiàn)的還有進(jìn)行大數(shù)據(jù)集處理MapReduce架構(gòu)。根據(jù)權(quán)威報(bào)告顯示,許多企業(yè)都開始使用或者評(píng)估Hadoop技術(shù)來作為其大數(shù)據(jù)平臺(tái)的標(biāo)準(zhǔn)。
NoSQL數(shù)據(jù)庫(kù)
我們生活的時(shí)代,相對(duì)穩(wěn)定的數(shù)據(jù)庫(kù)市場(chǎng)中還在出現(xiàn)一些新的技術(shù),而且在未來幾年,它們會(huì)發(fā)揮作用。事實(shí)上,NoSQL數(shù)據(jù)庫(kù)在一個(gè)廣義上派系基礎(chǔ)上,其本身就包含了幾種技術(shù)。總體而言,他們關(guān)注關(guān)系型數(shù)據(jù)庫(kù)引擎的限制,如索引、流媒體和高訪問量的網(wǎng)站
大數(shù)據(jù)技術(shù)盤點(diǎn)大數(shù)據(jù)技術(shù)盤點(diǎn)
服務(wù)。在這些領(lǐng)域,相較關(guān)系型數(shù)據(jù)庫(kù)引擎,NoSQL的效率明顯更高。
內(nèi)存分析
在Gartner公司評(píng)選的2012年十大戰(zhàn)略技術(shù)中,內(nèi)存分析在個(gè)人消費(fèi)電子設(shè)備以及其他嵌入式設(shè)備中的應(yīng)用將會(huì)得到快速的發(fā)展。隨著越來越多的價(jià)格低廉的內(nèi)存用到數(shù)據(jù)中心中,如何利用這一優(yōu)勢(shì)對(duì)軟件進(jìn)行最大限度的優(yōu)化成為關(guān)鍵的問題。內(nèi)存分析以其實(shí)時(shí)、高性能的特性,成為大數(shù)據(jù)分析時(shí)代下的“新寵兒”。如何讓大數(shù)據(jù)轉(zhuǎn)化為最佳的洞察力,也許內(nèi)存分析就是答案。大數(shù)據(jù)背景下,用戶以及IT提供商應(yīng)該將其視為長(zhǎng)遠(yuǎn)發(fā)展的技術(shù)趨勢(shì)。
集成設(shè)備
隨著數(shù)據(jù)倉(cāng)庫(kù)設(shè)備(Data Warehouse Appliance)的出現(xiàn),商業(yè)智能以及大數(shù)據(jù)分析的潛能也被激發(fā)出來,許多企業(yè)將利用數(shù)據(jù)倉(cāng)庫(kù)新技術(shù)的優(yōu)勢(shì)提升自身競(jìng)爭(zhēng)力。集成設(shè)備將企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)硬件軟件整合在一起,提升查詢性能、擴(kuò)充存儲(chǔ)空間并獲得更多的分析功能,并能夠提供同傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)一樣的優(yōu)勢(shì)。在大數(shù)據(jù)時(shí)代,集成設(shè)備將成為企業(yè)應(yīng)對(duì)數(shù)據(jù)挑戰(zhàn)的一個(gè)重要利器。

3結(jié)構(gòu)

大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒有必要神話它或?qū)λ3志次分模谝栽朴?jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會(huì)逐步為人類創(chuàng)造更多的價(jià)值。
其次,想要系統(tǒng)的認(rèn)知大數(shù)據(jù),必須要全面而細(xì)致的分解它,我著手從三個(gè)層面來展開:
第一層面是理論,理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。在這里從大數(shù)據(jù)的特征定義理解行業(yè)對(duì)大數(shù)據(jù)的整體描繪和定性;從對(duì)大數(shù)據(jù)價(jià)值的探討來深入解析大數(shù)據(jù)的珍貴所在;洞悉大數(shù)據(jù)的發(fā)展趨勢(shì);從大數(shù)據(jù)隱私這個(gè)特別而重要的視角審視人和數(shù)據(jù)之間的長(zhǎng)久博弈。
第二層面是技術(shù),技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。在這里分別從云計(jì)算、分布式處理技術(shù)、存儲(chǔ)技術(shù)和感知技術(shù)的發(fā)展來說明大數(shù)據(jù)從采集、處理、存儲(chǔ)到形成結(jié)果的整個(gè)過程。
第三層面是實(shí)踐,實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn)。在這里分別從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個(gè)人的大數(shù)據(jù)四個(gè)方面來描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實(shí)現(xiàn)的藍(lán)圖。

特點(diǎn)

大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點(diǎn)?!队?jì)算機(jī)學(xué)報(bào)》刊登的“架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望”一文列舉了大數(shù)據(jù)分析平臺(tái)需要具備的幾個(gè)重要特性,對(duì)當(dāng)前的主流實(shí)現(xiàn)平臺(tái)——并行數(shù)據(jù)庫(kù)、MapReduce及基于兩者的混合架構(gòu)進(jìn)行了分析歸納,指出了各自的優(yōu)勢(shì)及不足,同時(shí)也對(duì)各個(gè)方向的研究現(xiàn)狀及作者在大數(shù)據(jù)分析方面的努力進(jìn)行了介紹,對(duì)未來研究做了展望。
大數(shù)據(jù)的4個(gè)“V”,或者說特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別;第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,處理速度快,1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息,這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。第四,只要合理利用數(shù)據(jù)并對(duì)其進(jìn)行正確、準(zhǔn)確的分析,將會(huì)帶來很高的價(jià)值回報(bào)。業(yè)界將其歸納為4個(gè)“V”——Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(價(jià)值密度低)。
從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡(jiǎn)言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù)。明白這一點(diǎn)至關(guān)重要,也正是這一點(diǎn)促使該技術(shù)具備走向眾多企業(yè)的潛力。
大數(shù)據(jù)最核心的價(jià)值就是在于對(duì)于海量數(shù)據(jù)進(jìn)行存儲(chǔ)和分析。相比起現(xiàn)有的其他技術(shù)而言,大數(shù)據(jù)的“廉價(jià)、迅速、優(yōu)化”這三方面的綜合成本是最優(yōu)的。

5意義及用途

意義

1.變革價(jià)值的力量
未來十年,決定中國(guó)是不是有大智慧的核心意義標(biāo)準(zhǔn)(那個(gè)”思想者”),就是國(guó)民幸福。一體現(xiàn)到民生上,通過大數(shù)據(jù)讓事情變得澄明,看我們?cè)谌伺c人關(guān)系上,做得是否比以前更有意義;二體現(xiàn)在生態(tài)上,看我們?cè)谔炫c人關(guān)系上,做得是否比以前更有意義??傊?,讓我們從前10年的意義混沌時(shí)代,進(jìn)入未來10年意義澄明時(shí)代。
2.變革經(jīng)濟(jì)的力量
生產(chǎn)者是有價(jià)值的,消費(fèi)者是價(jià)值的意義所在。有意義的才有價(jià)值,消費(fèi)者不認(rèn)同的,就賣不出去,就實(shí)現(xiàn)不了價(jià)值;只有消費(fèi)者認(rèn)同的,才賣得出去,才實(shí)現(xiàn)得了價(jià)值。大數(shù)據(jù)幫助我們從消費(fèi)者這個(gè)源頭識(shí)別意義,從而幫助生產(chǎn)者實(shí)現(xiàn)價(jià)值。這就是啟動(dòng)內(nèi)需的原理。
3.變革組織的力量
隨著具有語義網(wǎng)特征的數(shù)據(jù)基礎(chǔ)設(shè)施和數(shù)據(jù)資源發(fā)展起來,組織的變革就越來越顯得不可避免。大數(shù)據(jù)將推動(dòng)網(wǎng)絡(luò)結(jié)構(gòu)產(chǎn)生無組織的組織力量。最先反映這種結(jié)構(gòu)特點(diǎn)的,是各種各樣去中心化的WEB2.0應(yīng)用,如RSS、維基、博客等。 大數(shù)據(jù)之所以成為時(shí)代變革力量,在于它通過追隨意義而獲得智慧。

用途

大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運(yùn)營(yíng)管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營(yíng)過程中發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會(huì)活動(dòng)之間的關(guān)系。
物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
 有些例子包括網(wǎng)絡(luò)日志,RFID,傳感器網(wǎng)絡(luò),社會(huì)網(wǎng)絡(luò),社會(huì)數(shù)據(jù)(由于數(shù)據(jù)革命的社會(huì)),互聯(lián)網(wǎng)文本和文件;互聯(lián)網(wǎng)搜索索引;呼叫詳細(xì)記錄,天文學(xué),大氣科學(xué),基因組學(xué),生物地球化學(xué),生物,和其他復(fù)雜和/或跨學(xué)科的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;和大規(guī)模的電子商務(wù)。

弊端

雖然大數(shù)據(jù)的擁護(hù)者看到了使用大數(shù)據(jù)的巨大潛力,但也有隱私倡導(dǎo)者擔(dān)心,因?yàn)樵絹碓蕉嗟娜碎_始收集相關(guān)數(shù)據(jù),無論是他們是否會(huì)故意透露這些數(shù)據(jù)或通過社交媒體張貼,甚至他們?cè)诓恢挥X中通過分享自己的生活而公布了一些具體的數(shù)字細(xì)節(jié)。
分析這些巨大的數(shù)據(jù)集會(huì)使我們的預(yù)測(cè)能力產(chǎn)生虛假的信心,將導(dǎo)致作出許多重大和有害的錯(cuò)誤決定。此外,數(shù)據(jù)被強(qiáng)大的人或機(jī)構(gòu)濫用,自私的操縱議程達(dá)到他們想要的結(jié)果。