技術:RapidMiner等大數據處理分析工具介紹
如上文所約,合肥網站優(yōu)化公司佳達小編已經為大家準備好了關于HPCC、Pentaho BI和RapidMiner這三大大數據處理分析工具的介紹(目前來看,這個工具還太過專業(yè)和深入,希望后期能有些相對簡單和“傻瓜化”的工具來幫助我們體驗大數據帶來的美妙世界)。這三個與之前介紹的三個有什么不同和共同點呢?請大家對比發(fā)現(xiàn),是不是有一點想大家來找茬,哈哈!
1)HPCC
HPCC,High Performance Computing and Communications(高性能計算與通信)的縮寫。1993年,由美國科學、工程、技術聯(lián)邦協(xié)調理事會向國會提交了“重大挑戰(zhàn)項目:高性能計算與 通信”的報告,也就是被稱為HPCC計劃的報告,即美國總統(tǒng)科學戰(zhàn)略項目,其目的是通過加強研究與開發(fā)解決一批重要的科學與技術挑戰(zhàn)問題。HPCC是美國 實施信息高速公路而上實施的計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發(fā)可擴展的計算系統(tǒng)及相關軟件,以支持太位級網絡傳輸性能,開發(fā)千兆 比特網絡技術,擴展研究和教育機構及網絡連接能力。
該項目主要由五部分組成:
1、先進軟件技術與算法(ASTA),內容有巨大挑戰(zhàn)問題的軟件支撐、新算法設計、軟件分支與工具、計算計算及高性能計算研究中心等;
2、國家科研與教育網格(NREN),內容有中接站及10億位級傳輸的研究與開發(fā);
3、高性能計算機系統(tǒng)(HPCS),內容包括今后幾代計算機系統(tǒng)的研究、系統(tǒng)設計工具、先進的典型系統(tǒng)及原有系統(tǒng)的評價等;
4、基本研究與人類資源(BRHR),內容有基礎研究、培訓、教育及課程教材,被設計通過獎勵調查者-開始的,長期 的調查在可升級的高性能計算中來增加創(chuàng)新意識流,通過提高教育和高性能的計算訓練和通信來加大熟練的和訓練有素的人員的聯(lián)營,和來提供必需的基礎架構來支 持這些調查和研究活動;
5、信息基礎結構技術和應用(IITA ),目的在于保證美國在先進信息技術開發(fā)方面的領先地位。
2)Pentaho BI
Pentaho BI 平臺不同于傳統(tǒng)的BI 產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在于將一系列企業(yè)級BI產品、開源軟件、API等等組件集成起來,方便商務智能應用的開發(fā)。它的出現(xiàn),使得一系列的面向商務智能的獨立產品如Jfree、Quartz等等,能夠集成在一起,構成一項項復雜的、完整的商務智能解決方案。
Pentaho BI 平臺,Pentaho Open BI 套件的核心架構和基礎,是以流程為中心的,因為其中樞控制器是一個工作流引擎。工作流引擎使用流程定義來定義在BI 平臺上執(zhí)行的商業(yè)智能流程。流程可以很容易的被定制,也可以添加新的流程。BI 平臺包含組件和報表,用以分析這些流程的性能。目前,Pentaho的主要組成元素包括報表生成、分析、數據挖掘和工作流管理等等。這些組件通過 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技術集成到Pentaho平臺中來。 Pentaho的發(fā)行,主要以Pentaho SDK的形式進行。
3)RapidMiner
RapidMiner是世界領先的數據挖掘解決方案,在一個非常大的程度上有著先進技術。它數據挖掘任務涉及范圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。其功能和特點有:數據挖掘過程簡單,強大和直觀、免費提供數據挖掘技術和庫、100%用Java代碼(可運行在操作系統(tǒng))、可以用簡單腳本語言自動進行大規(guī)模進程、圖形用戶界面的互動原型、命令行(批處理模式)自動大規(guī)模應用、Java API(應用編程接口)、簡單的插件和推廣機制和強大的可視化引擎,許多尖端的高維數據的可視化建模等。ML保證了標
耶魯大學已成功地應用在許多不同的應用領域,包括文本挖掘,多媒體挖掘,功能設計,數據流挖掘,集成開發(fā)的方法和分布式數據挖掘。
至此,六大大數據處理分析工具已經由合肥網站優(yōu)化公司佳達小編為大家介紹完畢,小編又可以為下一個主題準備了。會是什么主題呢?下周見分曉吧。