hadoop(分布式系統(tǒng)基礎(chǔ)架構(gòu))v2.7.1官方版

軟件大?。?span>2 KB
更新日期：2015-09-08
軟件語言：簡體中文
軟件類別：國產(chǎn)軟件
軟件授權(quán)：免費版
評分等級：
插件情況：無插件請放心使用
適用平臺：WinXp,Vista,Win7,Win8

本地下載文件大?。? KB高速下載高速下載器，提速50%

軟件介紹人氣軟件相關(guān)文章下載地址

hadoop是一款的分布式系統(tǒng)基礎(chǔ)架構(gòu)，該應(yīng)用由Apache基金會開發(fā)，相信大家都使用過apache，如果你是真正的開發(fā)者對hadoop也許并不陌生。它以一種可靠、高效、可伸縮的方式進行數(shù)據(jù)處理，有著超強的兼容性和數(shù)據(jù)庫處理能力，用戶可以在不了解分布式底層細節(jié)的情況下，開發(fā)分布式程序,充分利用集群的威力進行高速運算和存儲。

功能特點：
HDFS有著高容錯性的特點，并且設(shè)計用來部署在低廉的（low-cost）硬件上。而且它提供高傳輸率（high throughput）來訪問應(yīng)用程序的數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集（large data set）的應(yīng)用程序。
HDFS放寬了（relax）POSIX的要求（requirements）這樣可以流的形式訪問（streaming access）文件系統(tǒng)中的數(shù)據(jù)。
高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。
⒉高擴展性。Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務(wù)的，這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。
⒊高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù)，并保證各個節(jié)點的動態(tài)平衡，因此處理速度非?？臁?br /> ⒋高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本，并且能夠自動將失敗的任務(wù)重新分配。
Hadoop帶有用 Java 語言編寫的框架，因此運行在 Linux 生產(chǎn)平臺上是非常理想的。Hadoop 上的應(yīng)用程序也可以使用其他語言編寫，比如 C++。
開源實現(xiàn)：
Hadoop是項目的總稱。主要是由HDFS和MapReduce組成。
HDFS是Google File System（GFS）的開源實現(xiàn)。
MapReduce是Google MapReduce的開源實現(xiàn)。
這個分布式框架很有創(chuàng)造性，而且有極大的擴展性，使得Google在系統(tǒng)吞吐量上有很大的競爭力。因此Apache基金會用Java實現(xiàn)了一個開源版本，支持Fedora、Ubuntu等Linux平臺。雅虎和硅谷風(fēng)險投資公司Benchmark Capital 聯(lián)合成立一家名為Hortonworks的新公司，接管被廣泛應(yīng)用的數(shù)據(jù)分析軟件Hadoop的開發(fā)工作。
Hadoop實現(xiàn)了HDFS文件系統(tǒng)和MapRecue。用戶只要繼承MapReduceBase，提供分別實現(xiàn)Map和Reduce的兩個類，并注冊Job即可自動分布式運行。
至今為止是2.4.1，穩(wěn)定版本是1.2.1 和 yarn 的 2.4.0。
HDFS把節(jié)點分成兩類：NameNode和DataNode。NameNode是唯一的，程序與之通信，然后從DataNode上存取文件。這些操作是透明的，與普通的文件系統(tǒng)API沒有區(qū)別。
MapReduce則是JobTracker節(jié)點為主，分配工作以及負責(zé)和用戶程序通信。
HDFS和MapReduce實現(xiàn)是完全分離的，并不是沒有HDFS就不能MapReduce運算。
Hadoop也跟其他云計算項目有共同點和目標(biāo)：實現(xiàn)海量數(shù)據(jù)的計算。而進行海量計算需要一個穩(wěn)定的，安全的數(shù)據(jù)容器，才有了Hadoop分布式文件系統(tǒng)（HDFS，Hadoop Distributed File System）。
HDFS通信部分使用org.apache.hadoop.ipc，可以很快使用RPC.Server.start()構(gòu)造一個節(jié)點，具體業(yè)務(wù)功能還需自己實現(xiàn)。針對HDFS的業(yè)務(wù)則為數(shù)據(jù)流的讀寫，NameNode/DataNode的通信等。
MapReduce主要在org.apache.hadoop.mapred，實現(xiàn)提供的接口類，并完成節(jié)點通信（可以不是hadoop通信接口），就能進行MapReduce運算。
hadoop 中文件是怎么存儲的：
1、存儲文件的時候需要指定存儲的路徑，這個路徑是HDFS的路徑。而不是哪個節(jié)點的某個目錄。比如./hadoop fs -put localfile hdfspat
一般操作的當(dāng)前路徑是/user/hadoop比如執(zhí)行./hadoop fs -ls .實際上就相當(dāng)于./hadoop fs -ls /user/hadoop
2、HDFS本身就是一個文件系統(tǒng)，在使用的時候其實不用關(guān)心具體的文件是存儲在哪個節(jié)點上的。如果需要查詢可以通過頁面來查看，也可以通過API來實現(xiàn)查詢。