你的位置:首頁(yè) > 測(cè)試測(cè)量 > 正文
不懂這25個(gè)名詞,好意思說你懂大數(shù)據(jù)?
發(fā)布時(shí)間:2017-10-18 責(zé)任編輯:wenwei
【導(dǎo)讀】如果你剛接觸大數(shù)據(jù),你可能會(huì)覺得這個(gè)領(lǐng)域很難以理解,無從下手。近日,Ramesh Dontha在DataConomy上連發(fā)兩篇文章,扼要而全面地介紹了關(guān)于大數(shù)據(jù)的75個(gè)核心術(shù)語(yǔ),這不僅是大數(shù)據(jù)初學(xué)者很好的入門資料,對(duì)于高階從業(yè)人員也可以起到查漏補(bǔ)缺的作用。
本文先介紹 了25 個(gè)基本大數(shù)據(jù)術(shù)語(yǔ),幫助你溫故知新,那么開始吧~
01 算法(Algorithm)
算法可以理解成一種數(shù)學(xué)公式或用于進(jìn)行數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)過程。那么,「算法」又是何以與大數(shù)據(jù)扯上關(guān)系的呢?要知道,盡管算法這個(gè)詞是一個(gè)統(tǒng)稱,但是在這個(gè)流行大數(shù)據(jù)分析的時(shí)代,算法也經(jīng)常被提及且變得越發(fā)流行。
02 分析(Analytics analyze)
讓我們?cè)囅胍粋€(gè)很可能發(fā)生的情況,你的信用卡公司給你發(fā)了封記錄著你全年卡內(nèi)資金轉(zhuǎn)賬情況的郵件,如果這個(gè)時(shí)候你拿著這張單子,開始認(rèn)真研究你在食品、衣物、娛樂等方面消費(fèi)情況的百分比會(huì)怎樣?你正在進(jìn)行分析工作,你在從你原始的數(shù)據(jù)(這些數(shù)據(jù)可以幫助你為來年自己的消費(fèi)情況作出決定)中挖掘有用的信息。
那么,如果你以類似的方法在推特和臉書上對(duì)整個(gè)城市人們發(fā)的帖子進(jìn)行處理會(huì)如何呢?在這種情況下,我們就可以稱之為大數(shù)據(jù)分析。所謂大數(shù)據(jù)分析,就是對(duì)大量數(shù)據(jù)進(jìn)行推理并從中道出有用的信息。以下有三種不同類型的分析方法,現(xiàn)在我們來對(duì)它們分別進(jìn)行梳理。
03 描述性分析法(Deive Analytics)
如果你只說出自己去年信用卡消費(fèi)情況為:食品方面 25%、衣物方面 35%、娛樂方面 20%、剩下 20% 為雜項(xiàng)開支,那么這種分析方法被稱為描述性分析法。當(dāng)然,你也可以找出更多細(xì)節(jié)。
04 預(yù)測(cè)性分析法(Predictive Analytics)
如果你對(duì)過去 5 年信用卡消費(fèi)的歷史進(jìn)行了分析,發(fā)現(xiàn)每年的消費(fèi)情況基本上呈現(xiàn)一個(gè)連續(xù)變化的趨勢(shì),那么在這種情況下你就可以高概率預(yù)測(cè)出:來年的消費(fèi)狀態(tài)應(yīng)該和以往是類似的。這不是說我們?cè)陬A(yù)測(cè)未來,而是應(yīng)該理解為,我們?cè)凇赣酶怕暑A(yù)測(cè)」可能發(fā)生什么事情。在大數(shù)據(jù)的預(yù)測(cè)分析中,數(shù)據(jù)科學(xué)家可能會(huì)使用先進(jìn)的技術(shù),如機(jī)器學(xué)習(xí),和先進(jìn)的統(tǒng)計(jì)學(xué)處理方法(這部分后面我們會(huì)談到)來預(yù)測(cè)天氣情況、經(jīng)濟(jì)變化等等。
05 規(guī)范性分析(Preive Analytics)
這里我們還是用信用卡轉(zhuǎn)賬的例子來理解。假如你想找出自己的哪類消費(fèi)(如食品、娛樂、衣物等等)可以對(duì)整體消費(fèi)產(chǎn)生巨大影響,那么基于預(yù)測(cè)性分析(Predictive Analytics)的規(guī)范性分析法通過引入「動(dòng)態(tài)指標(biāo)(action)」(如減少食品或衣物或娛樂)以及對(duì)由此產(chǎn)生的結(jié)果進(jìn)行分析來規(guī)定一個(gè)可以降低你整體開銷的最佳消費(fèi)項(xiàng)。你可以將它延伸到大數(shù)據(jù)領(lǐng)域,并想象一個(gè)負(fù)責(zé)人是如何通過觀察他面前多種動(dòng)態(tài)指標(biāo)的影響,進(jìn)而作出所謂由「數(shù)據(jù)驅(qū)動(dòng)」的決策的。
06 批處理(Batch processing)
盡管批量數(shù)據(jù)處理從大型機(jī)(mainframe)時(shí)代就已經(jīng)存在了,但是在處理大量數(shù)據(jù)的大數(shù)據(jù)時(shí)代面前,批處理獲得了更重要的意義。批量數(shù)據(jù)處理是一種處理大量數(shù)據(jù)(如在一段時(shí)間內(nèi)收集到的一堆交易數(shù)據(jù))的有效方法。分布式計(jì)算(Hadoop),后面會(huì)討論,就是一種專門處理批量數(shù)據(jù)的方法。
07 Cassandra
是一個(gè)很流行的開源數(shù)據(jù)管理系統(tǒng),由Apache Software Foundation 開發(fā)并運(yùn)營(yíng)。Apache掌握了很多大數(shù)據(jù)處理技術(shù),Cassandra就是他們專門設(shè)計(jì)用于在分布式服務(wù)器之間處理大量數(shù)據(jù)的系統(tǒng)。
08 云計(jì)算(Cloud computing)
雖然云計(jì)算這個(gè)詞現(xiàn)在已經(jīng)家喻戶曉,這里大可不必贅述,但是為了全篇內(nèi)容完整性的考慮,筆者還是在這里加入了云計(jì)算詞條。本質(zhì)上講,軟件或數(shù)據(jù)在遠(yuǎn)程服務(wù)器上進(jìn)行處理,并且這些資源可以在網(wǎng)絡(luò)上任何地方被訪問,那么它就可被稱為云計(jì)算。
09 集群計(jì)算(Cluster computing)
這是一個(gè)來描述使用多個(gè)服務(wù)器豐富資源的一個(gè)集群(cluster)的計(jì)算的形象化術(shù)語(yǔ)。更技術(shù)層面的理解是,在集群處理的語(yǔ)境下,我們可能會(huì)討論節(jié)點(diǎn)(node)、集群管理層(cluster management layer)、負(fù)載平衡(load balancing)和并行處理(parallel processing)等等。
10 暗數(shù)據(jù)(Dark data)
這是一個(gè)生造詞,在筆者看來,它是用來嚇唬人,讓高級(jí)管理聽上去晦澀難懂的?;径?,所謂暗數(shù)據(jù)指的是,那些公司積累和處理的實(shí)際上完全用不到的所有數(shù)據(jù),從這個(gè)意義上來說我們稱它們?yōu)椤赴怠沟臄?shù)據(jù),它們有可能根本不會(huì)被分析。這些數(shù)據(jù)可以是社交網(wǎng)絡(luò)中的信息,電話中心的記錄,會(huì)議記錄等等。很多估計(jì)認(rèn)為所有公司的數(shù)據(jù)中有60%到90%不等可能是暗數(shù)據(jù),但實(shí)際上沒人知道。
11 數(shù)據(jù)湖(Data lake)
當(dāng)筆者第一次聽到這個(gè)詞時(shí),真的以為這是個(gè)愚人節(jié)笑話。但是它真的是一個(gè)術(shù)語(yǔ)。所以一個(gè)數(shù)據(jù)湖(data lake)即一個(gè)以大量原始格式保存了公司級(jí)別的數(shù)據(jù)知識(shí)庫(kù)。這里我們介紹一下數(shù)據(jù)倉(cāng)庫(kù)(Data warehouse)。
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)與這里提到的數(shù)據(jù)湖類似的概念,但不同的是,它保存的是經(jīng)過清理和并且其它資源整合后的結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)倉(cāng)庫(kù)經(jīng)常被用于通用數(shù)據(jù)(但不一定如此)。一般認(rèn)為,一個(gè)數(shù)據(jù)湖可以讓人更方便地接觸到那些你真正需要的數(shù)據(jù),此外,你也可以更方便地處理、有效地使用它們。
12 數(shù)據(jù)挖掘(Data mining)
數(shù)據(jù)挖掘關(guān)乎如下過程,從一大群數(shù)據(jù)中以復(fù)雜的模式識(shí)別技巧找出有意義的模式,并且得到相關(guān)洞見。它與前文所述的「分析」息息相關(guān),在數(shù)據(jù)挖掘中,你將會(huì)先對(duì)數(shù)據(jù)進(jìn)行挖掘,然后對(duì)這些得到的結(jié)果進(jìn)行分析。為了得到有意義的模式(pattern),數(shù)據(jù)挖掘人員會(huì)使用到統(tǒng)計(jì)學(xué)(一種經(jīng)典的舊方法)、機(jī)器學(xué)習(xí)算法和人工智能。
13 數(shù)據(jù)科學(xué)家
數(shù)據(jù)科學(xué)家是時(shí)下非常性感的一門行業(yè)。它指那些可以通過提取原始數(shù)據(jù)(這就是我們前面所謂的數(shù)據(jù)湖)進(jìn)而理解、處理并得出洞見的這樣一批人。部分?jǐn)?shù)據(jù)科學(xué)家必備的技能可以說只有超人才有:分析能力、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、創(chuàng)造力、講故事能力以及理解商業(yè)背景的能力。難怪這幫人工資很高。
14 分布式文件系統(tǒng)(Distributed File System)
大數(shù)據(jù)數(shù)量太大,不能存儲(chǔ)在一個(gè)單獨(dú)的系統(tǒng)中,分布式文件系統(tǒng)是一個(gè)能夠把大量數(shù)據(jù)存儲(chǔ)在多個(gè)存儲(chǔ)設(shè)備上的文件系統(tǒng),它能夠減少存儲(chǔ)大量數(shù)據(jù)的成本和復(fù)雜度。
15 ETL
ETL代表提取、轉(zhuǎn)換和加載。它指的是這一個(gè)過程:「提取」原始數(shù)據(jù),通過清洗/豐富的手段,把數(shù)據(jù)「轉(zhuǎn)換」為「適合使用」的形式,并且將其「加載」到合適的庫(kù)中供系統(tǒng)使用。即使ETL源自數(shù)據(jù)倉(cāng)庫(kù),但是這個(gè)過程在獲取數(shù)據(jù)的時(shí)候也在被使用,例如,在大數(shù)據(jù)系統(tǒng)中從外部源獲得數(shù)據(jù)。
16 Hadoop
當(dāng)人們思考大數(shù)據(jù)的時(shí)候,他們會(huì)立即想到Hadoop。Hadoop是一個(gè)開源軟件架構(gòu)(logo是一頭可愛的大象),它由 Hadoop分布式文件系統(tǒng)(HDFS)構(gòu)成,它允許使用分布式硬件對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ)、抽象和分析。如果你真的想讓某人對(duì)這個(gè)東西印象深刻,你可以跟他說 YARN(Yet Another Resource Scheduler),顧名思義,就是另一個(gè)資源調(diào)度器。我確實(shí)被提出這些名字的人深深震撼了。提出 Hadoop 的 Apache 基金會(huì),還負(fù)責(zé) Pig、Hive 以及 Spark(這都是一些軟件的名字)。你沒有被這些名字驚艷到嗎?
17 內(nèi)存計(jì)算(In-memory computing)
通常認(rèn)為,任何不涉及到 I/O訪問的計(jì)算都會(huì)更快一些。內(nèi)存計(jì)算就是這樣的技術(shù),它把所有的工作數(shù)據(jù)集都移動(dòng)到集群的集體內(nèi)存中,避免了在計(jì)算過程中向磁盤寫入中間結(jié)果。Apache Spark 就是一個(gè)內(nèi)存計(jì)算的系統(tǒng),它相對(duì) Mapreduce 這類 I/O 綁定的系統(tǒng)具有很大的優(yōu)勢(shì)。
18 物聯(lián)網(wǎng)(IoT)
最新的流行語(yǔ)就是物聯(lián)網(wǎng)(IoT)。IoT 是嵌入式對(duì)象中(如傳感器、可穿戴設(shè)備、車、冰箱等等)的計(jì)算設(shè)備通過英特網(wǎng)的互聯(lián),它們能夠收發(fā)數(shù)據(jù)。物聯(lián)網(wǎng)生成了海量的數(shù)據(jù),帶來了很多大數(shù)據(jù)分析的機(jī)遇。
19 機(jī)器學(xué)習(xí)(Machine Learning)
機(jī)器學(xué)習(xí)是基于喂入的數(shù)據(jù)去設(shè)計(jì)能夠?qū)W習(xí)、調(diào)整和提升的系統(tǒng)的一種方法。使用設(shè)定的預(yù)測(cè)和統(tǒng)計(jì)算法,它們持續(xù)地逼近「正確的」行為和想法,隨著更多的數(shù)據(jù)被輸入到系統(tǒng),它們能夠進(jìn)一步提升。
20 MapReduce
MapReduce可能有點(diǎn)難以理解,我試著解釋一下吧。MapReduce是一個(gè)編程模型,最好的理解就是要注意到Map和Reduce是兩個(gè)不同的過程。在 MapReduce中,程序模型首先將大數(shù)據(jù)集分割成一些小塊(這些小塊拿技術(shù)術(shù)語(yǔ)來講叫做「元組」,但是我描述的時(shí)候會(huì)盡量避免晦澀的技術(shù)術(shù)語(yǔ)),然后這些小塊會(huì)被分發(fā)給不同位置上的不同計(jì)算機(jī)(也就是說之前描述過的集群),這在Map過程是必須的。然后模型會(huì)收集每個(gè)計(jì)算結(jié)果,并且將它們「reduce」成一個(gè)部分。MapReduce的數(shù)據(jù)處理模型和Hadoop分布式文件系統(tǒng)是分不開的。
21 非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL)
這個(gè)詞聽起來幾乎就是「SQL,結(jié)構(gòu)化查詢語(yǔ)言」的反義詞,SQL 是傳統(tǒng)的關(guān)系型數(shù)據(jù)管理系統(tǒng)(RDBMS)必需的,但是 NOSQL 實(shí)際上指的是「不止SQL」。
NoSQL實(shí)際上指的是那些被設(shè)計(jì)來處理沒有結(jié)構(gòu)(或者沒有「schema」,綱要)的大量數(shù)據(jù)的數(shù)據(jù)庫(kù)管理系統(tǒng)。
NoSQL 適合大數(shù)據(jù)系統(tǒng),因?yàn)榇笠?guī)模的非結(jié)構(gòu)化數(shù)據(jù)庫(kù)需要 NoSQL的這種靈活性和分布式優(yōu)先的特點(diǎn)。
22 R語(yǔ)言
這還有人能給一個(gè)編程語(yǔ)言起一個(gè)更加糟糕的名字嗎?R 語(yǔ)言就是這樣的語(yǔ)言。不過,R 語(yǔ)言是一個(gè)在統(tǒng)計(jì)工作中工作得很好的語(yǔ)言。如果你不知道 R 語(yǔ)言,別說你是數(shù)據(jù)科學(xué)家。因?yàn)?R 語(yǔ)言是數(shù)據(jù)科學(xué)中最流行的編程語(yǔ)言之一。
23 Spark(Apache Spark)
Apache Spark 是一個(gè)快速的內(nèi)存數(shù)據(jù)處理引擎,它能夠有效地執(zhí)行那些需要迭代訪問數(shù)據(jù)庫(kù)的流處理、機(jī)器學(xué)習(xí)以及SQL負(fù)載。Spark通常會(huì)比我們前面討論過的MapReduce 快好多。
24 流處理(Stream processing)
流處理被設(shè)計(jì)來用于持續(xù)地進(jìn)行流數(shù)據(jù)的處理。與流分析技術(shù)(指的是能夠持續(xù)地計(jì)算數(shù)值和統(tǒng)計(jì)分析的能力)結(jié)合起來,流處理方法特別能夠針對(duì)大規(guī)模數(shù)據(jù)的實(shí)時(shí)處理。
25 結(jié)構(gòu)化vs非結(jié)構(gòu)化數(shù)據(jù)(Structured v Unstructured Data)
這是大數(shù)據(jù)中的對(duì)比之一。結(jié)構(gòu)化數(shù)據(jù)基本上是那些能夠被放在關(guān)系型數(shù)據(jù)庫(kù)中的任何數(shù)據(jù),以這種方式組織的數(shù)據(jù)可以與其他數(shù)據(jù)通過表格來關(guān)聯(lián)。非結(jié)構(gòu)化數(shù)據(jù)是指任何不能夠被放在關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù),例如郵件信息、社交媒體上的狀態(tài),以及人類語(yǔ)音等等。
推薦閱讀:
特別推薦
- 授權(quán)代理商貿(mào)澤電子供應(yīng)Same Sky多樣化電子元器件
- 使用合適的窗口電壓監(jiān)控器優(yōu)化系統(tǒng)設(shè)計(jì)
- ADI電機(jī)運(yùn)動(dòng)控制解決方案 驅(qū)動(dòng)智能運(yùn)動(dòng)新時(shí)代
- 倍福推出采用 TwinSAFE SC 技術(shù)的 EtherCAT 端子模塊 EL3453-0090
- TDK推出新的X系列環(huán)保型SMD壓敏電阻
- Vishay 推出新款采用0102、0204和 0207封裝的精密薄膜MELF電阻
- Microchip推出新款交鑰匙電容式觸摸控制器產(chǎn)品 MTCH2120
技術(shù)文章更多>>
- 更高精度、更低噪音 GMCC美芝電子膨脹閥以創(chuàng)新?lián)屨夹袠I(yè)“制高點(diǎn)”
- 本立租完成近億元估值Pre-A輪融資,打造AI賦能的租賃服務(wù)平臺(tái)
- 中微公司成功從美國(guó)國(guó)防部中國(guó)軍事企業(yè)清單中移除
- 華邦電子白皮書:滿足歐盟無線電設(shè)備指令(RED)信息安全標(biāo)準(zhǔn)
- 功率器件熱設(shè)計(jì)基礎(chǔ)(九)——功率半導(dǎo)體模塊的熱擴(kuò)散
技術(shù)白皮書下載更多>>
- 車規(guī)與基于V2X的車輛協(xié)同主動(dòng)避撞技術(shù)展望
- 數(shù)字隔離助力新能源汽車安全隔離的新挑戰(zhàn)
- 汽車模塊拋負(fù)載的解決方案
- 車用連接器的安全創(chuàng)新應(yīng)用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索
單向可控硅
刀開關(guān)
等離子顯示屏
低頻電感
低通濾波器
低音炮電路
滌綸電容
點(diǎn)膠設(shè)備
電池
電池管理系統(tǒng)
電磁蜂鳴器
電磁兼容
電磁爐危害
電動(dòng)車
電動(dòng)工具
電動(dòng)汽車
電感
電工電路
電機(jī)控制
電解電容
電纜連接器
電力電子
電力繼電器
電力線通信
電流保險(xiǎn)絲
電流表
電流傳感器
電流互感器
電路保護(hù)
電路圖