您的位置:網(wǎng)站首頁(yè) > 電器維修資料網(wǎng) > 正文 >
擁抱大數(shù)據(jù) 走近大數(shù)據(jù)分析工具
來(lái)源: 日期:2013-11-3 17:28:00 人氣:標(biāo)簽:
大數(shù)據(jù)的好處
嚴(yán)格地說(shuō),大數(shù)據(jù)并非一個(gè)新詞,被譽(yù)為“數(shù)據(jù)倉(cāng)庫(kù)之父”的bill inmon早在上世紀(jì)90年代就經(jīng)常將“big data”掛在嘴邊了。大數(shù)據(jù)之所以在近一兩年迅速走紅,要?dú)w結(jié)于互聯(lián)網(wǎng)、移動(dòng)設(shè)備、物聯(lián)網(wǎng)和云計(jì)算的迅猛發(fā)展,它們使得人類每分每秒都在產(chǎn)生巨量數(shù)據(jù)——從出現(xiàn)文明到2003年,人類總共才創(chuàng)造 5 eb(5 exabytes)的數(shù)據(jù),但現(xiàn)在全世界僅數(shù)天內(nèi)就可創(chuàng)造出相同的數(shù)據(jù)量。來(lái)自idc全球存儲(chǔ)及大數(shù)據(jù)研究項(xiàng)目副總裁benjamin woo表示,到2020年,全球數(shù)據(jù)使用量預(yù)計(jì)暴增44倍,達(dá)到35.2zb。35zb是什么概念呢?(1zb=1024eb=1048576pb=1073741824tb,1073741824tb×35=37580963840tb),也就是說(shuō)全球大概需要376億個(gè)1tb的硬盤來(lái)存儲(chǔ)這些數(shù)據(jù)。
但是大數(shù)據(jù)并非單指數(shù)據(jù)量大,對(duì)于大數(shù)據(jù),idc的定義是:“大數(shù)據(jù)是為了更經(jīng)濟(jì)地從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價(jià)值,而設(shè)計(jì)的新一代架構(gòu)和技術(shù)。”人們普遍將該定義概括為四個(gè)“v”,即更大的容量(volume,從tb級(jí)躍升至pb級(jí),甚至eb級(jí))、更高的多樣性(variety,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)),以及更快的生成速度(velocity)。前面三個(gè)“v”的組合推動(dòng)了第四個(gè)因素——價(jià)值(value),而關(guān)于大數(shù)據(jù)所蘊(yùn)含的價(jià)值,有許多被人所津津樂(lè)道的故事可以佐證。
大數(shù)據(jù)的4v特性
早在19世紀(jì),“百貨商店之父”約翰·沃納梅克便提出了:“我在廣告上的投資有一半是無(wú)用的,但是問(wèn)題是我不知道是哪一半?”這也是對(duì)經(jīng)典商業(yè)模式下供需不對(duì)稱的典型描述。而現(xiàn)在依靠大數(shù)據(jù)的分析預(yù)測(cè)能力,一些精明的零售商正在收集和挖掘消費(fèi)大數(shù)據(jù),針對(duì)顧客在網(wǎng)上的購(gòu)買行為,投其喜好進(jìn)行銷售與推廣,實(shí)現(xiàn)社交電子商務(wù)和庫(kù)存優(yōu)化。
例如,大數(shù)據(jù)分析軟件有可能使零售商進(jìn)行直接相關(guān)的促銷和營(yíng)銷活動(dòng),激勵(lì)消費(fèi)者進(jìn)行網(wǎng)購(gòu),并跟蹤由此產(chǎn)生的銷售交易, 大限度地提高消費(fèi),提高盈利能力,在短時(shí)間內(nèi)產(chǎn)生 大收益。比如trident marketing是一家營(yíng)銷企業(yè),其客戶包括directv等品牌,通過(guò)ibm大數(shù)據(jù)分析軟件的幫助,他們甚至可以預(yù)計(jì)客戶 佳聯(lián)系時(shí)間以及客戶是否會(huì)取消購(gòu)買服務(wù)。其營(yíng)收在短短4年間增長(zhǎng)了10倍,產(chǎn)品部署后頭兩個(gè)月的銷售額增長(zhǎng)10%,而且其客戶流失率降低了50%。
去年,西班牙電信推出了名為“智慧足跡”的大數(shù)據(jù)服務(wù),通過(guò)向數(shù)據(jù)挖掘公司等合作方提供定向人流的移動(dòng)數(shù)據(jù),為零售客戶開(kāi)店選址和促銷提供借鑒。另一個(gè)典型的案例是,2012年成功獲得連任的美國(guó)總統(tǒng)奧巴馬背后,有一個(gè)幾十人的數(shù)據(jù)分析與挖掘團(tuán)隊(duì),幫助他在獲取有效選民、投放廣告、募集資金等方面發(fā)揮作用。
從以上的例子不難看出,大數(shù)據(jù)的價(jià)值和重要性已經(jīng)毋庸置疑。不過(guò)現(xiàn)在 關(guān)鍵的問(wèn)題是,每個(gè)企業(yè)如何才能獲取大數(shù)據(jù)中的“寶藏”呢?
hadoop,大數(shù)據(jù)分析利器
對(duì)于較大的公司來(lái)說(shuō),海量數(shù)據(jù)處理已經(jīng)不是什么新鮮的東西了。例如,twitter和linkedin已經(jīng)是大數(shù)據(jù)的著名用戶了,這兩家公司已經(jīng)奠定了明顯的競(jìng)爭(zhēng)優(yōu)勢(shì),通過(guò)挖掘他們的大規(guī)模數(shù)據(jù)倉(cāng)庫(kù)來(lái)判斷發(fā)展趨勢(shì)。那么,中型企業(yè)的cio該怎么辦呢?幸運(yùn)的是,手邊就有可用的工具。這些工具中有一款是免費(fèi)的,那就是hadoop,它基于java的apache hadoop編程框架。hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由apache基金會(huì)開(kāi)發(fā),用戶可以在不了解分布式底層細(xì)節(jié)的情況下開(kāi)發(fā)分布式程序。簡(jiǎn)單來(lái)說(shuō),hadoop是一套開(kāi)源的、以java為基礎(chǔ)的、可對(duì)pb級(jí)別的大數(shù)據(jù)進(jìn)行存儲(chǔ)和計(jì)算的軟件平臺(tái),它能夠讓數(shù)千臺(tái)x86服務(wù)器組成一個(gè)穩(wěn)定的、強(qiáng)大的集群。而對(duì)那些想充分利用大數(shù)據(jù)的it專業(yè)人員,hadoop解決了與大數(shù)據(jù)相關(guān)聯(lián)的 常見(jiàn)的問(wèn)題:高效的存儲(chǔ)和訪問(wèn)海量數(shù)據(jù)。
利用hadoop可進(jìn)行高效存儲(chǔ)和訪問(wèn)海量數(shù)據(jù)
hadoop主要由hdfs、mapreduce和hbase組成,其內(nèi)在設(shè)計(jì)讓它能夠在大量不共享任何內(nèi)存和磁盤的計(jì)算機(jī)平臺(tái)上運(yùn)行。考慮到這一點(diǎn),就能很容易看到hadoop提供的價(jià)值——網(wǎng)絡(luò)管理員可以購(gòu)買許多商品服務(wù)器,將它們放在機(jī)架上,然后在每臺(tái)服務(wù)器上運(yùn)行hadoop軟件,hadoop有助于減少大型數(shù)據(jù)集相關(guān)聯(lián)的管理開(kāi)銷。在操作上,一旦企業(yè)的數(shù)據(jù)加載到hadoop平臺(tái),軟件就會(huì)把數(shù)據(jù)分解成可管理的段,然后自動(dòng)將這些數(shù)據(jù)分配給不同的服務(wù)器。同時(shí)hadoop跟蹤數(shù)據(jù)駐留的位置,并通過(guò)創(chuàng)建多個(gè)存儲(chǔ)副本進(jìn)一步保護(hù)這些信息。這樣,系統(tǒng)的伸縮性增強(qiáng)了,如果某個(gè)服務(wù)器脫機(jī)或者失敗了,數(shù)據(jù)可以自動(dòng)復(fù)制已知的正常副本。
hadoop的工作原理
hadoop在過(guò)去一年半時(shí)間里在大數(shù)據(jù)領(lǐng)域獲得了極大的肯定。調(diào)查顯示,以hadoop為代表的分布式存儲(chǔ)與計(jì)算技術(shù)成為 受關(guān)注的數(shù)據(jù)分析管理新技術(shù),市場(chǎng)比例達(dá)到29.86%;其次是以sap hana為代表的內(nèi)存數(shù)據(jù)庫(kù)技術(shù),市場(chǎng)比例達(dá)到23.30%;以google cloud sql為代表的云數(shù)據(jù)庫(kù)排名第三,市場(chǎng)比例為16.29%。考慮到apache hadoop1.0版是在2011年11月底發(fā)布的這一事實(shí),hadoop獲得這么多企業(yè)的認(rèn)可確實(shí)令人驚訝。作為大數(shù)據(jù)分析方面的一項(xiàng)重要技術(shù),大規(guī)模使用hadoop已是必然趨勢(shì)。目前谷歌、雅虎、亞馬遜、facebook,以及國(guó)內(nèi)的淘寶、百度等都采用了hadoop技術(shù)來(lái)處理海量數(shù)據(jù)。hortonworks公司的ceo eric baldeschwieler預(yù)測(cè):在2017年hadoop將處理全世界數(shù)據(jù)的半數(shù)之多,而全球的行業(yè)專家和用戶們都把hadoop稱為事實(shí)上的數(shù)據(jù)分析標(biāo)準(zhǔn)。
it巨頭借hadoop發(fā)力大數(shù)據(jù)
盡管hadoop是開(kāi)源軟件,但英特爾、ibm、cloudera等廠商都推出了他們各自的hadoop特別發(fā)行版本。這些特別發(fā)行版本一般都會(huì)有一些附加特性,比如高級(jí)管理工具及相關(guān)的支持維護(hù)服務(wù),主要適合企業(yè)用戶使用。畢竟絕大多數(shù)企業(yè)用戶都和互聯(lián)網(wǎng)公司一樣具有強(qiáng)大的技術(shù)實(shí)力,采用具有商業(yè)支持的開(kāi)源hadoop技術(shù)能夠快速切入到大數(shù)據(jù)應(yīng)用中去。
如針對(duì)企業(yè)大數(shù)據(jù)方向開(kāi)發(fā)者,ibm就推出了多款產(chǎn)品和技術(shù)。其新版本企業(yè)級(jí)hadoop產(chǎn)品infosphere biginsights可以利用現(xiàn)有的sql技術(shù),更便捷地開(kāi)發(fā)應(yīng)用組件。兼具安全性強(qiáng)和高可用性的特點(diǎn),新版的infosphere biginsights能夠更加契合企業(yè)部署需求。惠普則在接連收購(gòu)vertica和autonomy后,也推出了與vertica 6實(shí)現(xiàn)高級(jí)集成的大數(shù)據(jù)應(yīng)用平臺(tái)——hp appsystem for apache hadoop。而英特爾針對(duì)大數(shù)據(jù)的開(kāi)放架構(gòu)核心產(chǎn)品線,也推出了英特爾hadoop分發(fā)版,讓用戶可以實(shí)現(xiàn)“軟硬協(xié)同、體驗(yàn)至上”的創(chuàng)新效果。例如,利用英特爾至強(qiáng)處理器平臺(tái)對(duì)網(wǎng)絡(luò)和i/o技術(shù)所做的優(yōu)化,與英特爾hadoop分發(fā)版進(jìn)行強(qiáng)力組合,以往分析1tb的數(shù)據(jù)需要4個(gè)多小時(shí)才能完全處理完,現(xiàn)在僅需要短短的7分鐘即可完成,極大地提升了大數(shù)據(jù)分析的速度。
英特爾推出的hadoop分發(fā)版
當(dāng)然,微軟也不會(huì)缺陣這場(chǎng)大數(shù)據(jù)的盛宴。結(jié)合對(duì)大數(shù)據(jù)本身的認(rèn)知和自身強(qiáng)大的產(chǎn)品組合,微軟正在為用戶提供一個(gè)端到端的大數(shù)據(jù)解決方案。簡(jiǎn)單來(lái)說(shuō),就是后端以新一代sql server 2012為基準(zhǔn)平臺(tái),將大數(shù)據(jù)“管“起來(lái),然后在中端以數(shù)據(jù)集市為依托,配以豐富的數(shù)據(jù)應(yīng)用, 后在前端以豐富的界面形式展現(xiàn)數(shù)據(jù)分析的結(jié)果,完成數(shù)據(jù)的匯總→應(yīng)用與分析→結(jié)果呈現(xiàn)的完整流程。為幫助企業(yè)快速應(yīng)用其大數(shù)據(jù)解決方案,微軟將同時(shí)在windows azure平臺(tái)和windows server平臺(tái)上提供hadoop(在前者上用作基于云的服務(wù),在后者上用作內(nèi)部部署的分布)。此外,cloudera、splunk 、clustrix、1010data等一些新興的大數(shù)據(jù)企業(yè)異軍突起,它們力爭(zhēng)在未來(lái)龐大的市場(chǎng)需求中搶占一定的份額。不過(guò),令人遺憾的是,國(guó)內(nèi)類似的大數(shù)據(jù)創(chuàng)新企業(yè)還比較少,希望這一局面能夠盡早得到改變。
小結(jié):大數(shù)據(jù)的角逐已經(jīng)開(kāi)始了。今年大數(shù)據(jù)市場(chǎng)規(guī)模將進(jìn)一步膨脹,一些新的細(xì)分市場(chǎng)將會(huì)出現(xiàn)。例如,以數(shù)據(jù)分析和處理為主的高級(jí)數(shù)據(jù)服務(wù),將出現(xiàn)以數(shù)據(jù)分析作為服務(wù)產(chǎn)品提交的分析即服務(wù)業(yè)務(wù);將多種信息整合管理,創(chuàng)造對(duì)大數(shù)據(jù)統(tǒng)一的訪問(wèn)和分析的組件產(chǎn)品;基于社交網(wǎng)絡(luò)的社交大數(shù)據(jù)分析。不過(guò),從大的環(huán)境來(lái)看,目前大數(shù)據(jù)發(fā)展還處于起步階段,無(wú)論是軟件技術(shù)、硬件技術(shù)還是軟硬件一體化的技術(shù),國(guó)內(nèi)企業(yè)要想在大數(shù)據(jù)發(fā)展中搶到更多的話語(yǔ)權(quán),現(xiàn)在就必須高度重視并著手在大數(shù)據(jù)應(yīng)用實(shí)踐中找準(zhǔn)切入點(diǎn)。要知道,忽略數(shù)據(jù)分析大勢(shì)的cio們實(shí)際上是在拿自己的職業(yè)冒險(xiǎn)。
【看看這篇文章在百度的收錄情況】
相關(guān)文章
- 上一篇: 穩(wěn)壓電源的正確使用
- 下一篇: 手機(jī)的攝像頭技術(shù)和技巧詳解