精品秘无码一区二区三区老师-精品秘一区二三区免费雷安-精品蜜桃秘一区二区三区-精品蜜桃秘一区二区三区粉嫩-精品蜜桃一区二区三区-精品蜜臀国产aⅴ一区二区三区

LOGO OA教程 ERP教程 模切知識交流 PMS教程 CRM教程 開發(fā)文檔 其他文檔  
 
網站管理員

Apache Spark 介紹

admin
2024年12月11日 9:41 本文熱度 393

Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用并行框架,Spark,擁有Hadoop MapReduce所具有的優(yōu)點;但不同于MapReduce的是——Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法。

Spark 是一種與 Hadoop 相似的開源集群計算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark 啟用了內存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。

Spark 是在 Scala 語言中實現(xiàn)的,它將 Scala 用作其應用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。

盡管創(chuàng)建 Spark 是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實際上它是對 Hadoop 的補充,可以在 Hadoop 文件系統(tǒng)中并行運行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發(fā),可用來構建大型的、低延遲的數(shù)據(jù)分析應用程序。


目錄

1、基本介紹

2、特點介紹

3、性能特點

4、基本原理

5、計算方法


1、基本介紹

Apache Spark是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎 [2]。形成一個高速發(fā)展應用廣泛的生態(tài)系統(tǒng)。


2、特點介紹

Spark 主要有三個特點 [3]:

首先,高級 API 剝離了對集群本身的關注,Spark 應用開發(fā)者可以專注于應用所要做的計算本身。

其次,Spark 很快,支持交互式計算和復雜算法。

最后,Spark 是一個通用引擎,可用它來完成各種各樣的運算,包括 SQL 查詢、文本處理、機器學習等,而在 Spark 出現(xiàn)之前,我們一般需要學習各種各樣的引擎來分別處理這些需求。


3、性能特點

更快的速度

內存計算下,Spark 比 Hadoop 快100倍。

易用性

Spark 提供了80多個高級運算符。

通用性

Spark 提供了大量的庫,包括Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX。 開發(fā)者可以在同一個應用程序中無縫組合使用這些庫。

支持多種資源管理器

Spark 支持 Hadoop YARN,Apache Mesos,及其自帶的獨立集群管理器

Spark生態(tài)系統(tǒng)

Shark:Shark基本上就是在Spark的框架基礎上提供和Hive一樣的HiveQL命令接口,為了最大程度的保持和Hive的兼容性,Spark使用了Hive的API來實現(xiàn)query Parsing和 Logic Plan generation,最后的PhysicalPlan execution階段用Spark代替HadoopMapReduce。通過配置Shark參數(shù),Shark可以自動在內存中緩存特定的RDD,實現(xiàn)數(shù)據(jù)重用,進而加快特定數(shù)據(jù)集的檢索。同時,Spark通過UDF用戶自定義函數(shù)實現(xiàn)特定的數(shù)據(jù)分析學習算法,使得SQL數(shù)據(jù)查詢和運算分析能結合在一起,最大化RDD的重復使用。

SparkR:SparkR是一個為R提供了輕量級的Spark前端的R包。 SparkR提供了一個分布式的data frame數(shù)據(jù)結構,解決了 R中的data frame只能在單機中使用的瓶頸,它和R中的data frame 一樣支持許多操作,比如select,filter,aggregate等等。(類似dplyr包中的功能)這很好的解決了R的大數(shù)據(jù)級瓶頸問題。 SparkR也支持分布式的機器學習算法,比如使用MLib機器學習庫。 [4]SparkR為Spark引入了R語言社區(qū)的活力,吸引了大量的數(shù)據(jù)科學家開始在Spark平臺上直接開始數(shù)據(jù)分析之旅。 [5]


4、基本原理

Spark Streaming:構建在Spark上處理Stream數(shù)據(jù)的框架,基本的原理是將Stream數(shù)據(jù)分成小的時間片段(幾秒),以類似batch批量處理的方式來處理這小部分數(shù)據(jù)。Spark Streaming構建在Spark上,一方面是因為Spark的低延遲執(zhí)行引擎(100ms+),雖然比不上專門的流式數(shù)據(jù)處理軟件,也可以用于實時計算,另一方面相比基于Record的其它處理框架(如Storm),一部分窄依賴的RDD數(shù)據(jù)集可以從源數(shù)據(jù)重新計算達到容錯處理目的。此外小批量處理的方式使得它可以同時兼容批量和實時數(shù)據(jù)處理的邏輯和算法。方便了一些需要歷史數(shù)據(jù)和實時數(shù)據(jù)聯(lián)合分析的特定應用場合。


5、計算方法

Bagel: Pregel on Spark,可以用Spark進行圖計算,這是個非常有用的小項目。Bagel自帶了一個例子,實現(xiàn)了Google的PageRank算法。

當下Spark已不止步于實時計算,目標直指通用大數(shù)據(jù)處理平臺,而終止Spark,開啟SparkSQL或許已經初見端倪。

大數(shù)據(jù)機器學習和數(shù)據(jù)挖掘的并行化算法研究成為大數(shù)據(jù)領域一個較為重要的研究熱點。早幾年國內外研究者和業(yè)界比較關注的是在 Hadoop 平臺上的并行化算法設計。然而, HadoopMapReduce 平臺由于網絡和磁盤讀寫開銷大,難以高效地實現(xiàn)需要大量迭代計算的機器學習并行化算法。隨著 UC Berkeley AMPLab 推出的新一代大數(shù)據(jù)平臺 Spark 系統(tǒng)的出現(xiàn)和逐步發(fā)展成熟,近年來國內外開始關注在 Spark 平臺上如何實現(xiàn)各種機器學習和數(shù)據(jù)挖掘并行化算法設計。為了方便一般應用領域的數(shù)據(jù)分析人員使用所熟悉的 R 語言在 Spark 平臺上完成數(shù)據(jù)分析,Spark 提供了一個稱為 SparkR 的編程接口,使得一般應用領域的數(shù)據(jù)分析人員可以在 R 語言的環(huán)境里方便地使用 Spark 的并行化編程接口和強大計算能力。 [6]


Spark是什么?

說起大數(shù)據(jù),想必大家不陌生,這幾乎貫穿了我們的生活,而大數(shù)據(jù)作用到的一個技術就是Spark,Spark是由加州大學伯克利分校的AMP實驗室開發(fā)的用來處理的統(tǒng)一分析引擎,它的以構建大型的,低延遲的數(shù)據(jù)分析系統(tǒng),它的主要特點就是可以在內存中計算,依靠磁盤去處理復雜的算法。


大數(shù)據(jù)工作流程是什么樣的?

大數(shù)據(jù),顧名思義就是處理數(shù)據(jù)的技術,把他看做一個醫(yī)院,這時的Master就好像是門診,它把用戶按照不同得病因分給不同的醫(yī)科部門(worker),這時的病人需要治療(APP),但是這個流程不可能只用一種藥物(job),這時的流程就需要主治醫(yī)師處理,而它的技能就好


你知道大數(shù)據(jù)的數(shù)據(jù)引擎Spark有哪些組建么?


那些高科技用到了Spark?

人工智能的核心就起大數(shù)據(jù),通過大數(shù)據(jù)分析來決定執(zhí)行那一步,Spark被用在了大數(shù)據(jù)領域,因為其能夠處理大量的數(shù)據(jù),依靠磁盤并能進行了復雜的運算,這些的特點,正是為人工智能提供了核心大腦,Spark這么強大,你有什么想法,歡迎評論留言!


什么是spark?

Spark是一種快速、通用、可擴展的大數(shù)據(jù)分析引擎,它2009年誕生于加州大學伯克利分校AMPLab,2013年6月成為Apache培養(yǎng)項目,2014年2月成為Apache頂級項目。目前,Spark生態(tài)系統(tǒng)已經發(fā)展成為一個包含多個子項目的集合,其中包含Spar


spark的作業(yè)?

spark有兩個基礎作用 1中間結果的輸出:基于MapReduce的計算引擎通常會將中間結果輸出到磁盤上,進行存儲和容錯。出于任務管道承接的考慮,當一些查詢翻譯到MapReduce任務時,往往會產生多個Stage,而這些串聯(lián)的Stage又依賴于底層文件系統(tǒng)來存


參考資料

1Spark 3.0.0發(fā)布.spark官網.2020-08-07 [引用日期2020-08-07]

2spark.apache [引用日期2017-02-11]

3Holden Karau.Spark快速大數(shù)據(jù)分析.人民郵電出版社.2015-09-01

4[原]海納百川 有容乃大:SparkR與Docker的機器學習實戰(zhàn).Segmentfault [引用日期2016-03-23]

5[譯]打造大數(shù)據(jù)產品:Shiny的Spark之旅.SegmentFault [引用日期2016-02-20]

6劉志強等:基于 SparkR 的分類算法并行化研究.chinacloud [引用日期2016-03-27]


該文章在 2024/12/11 9:47:08 編輯過
關鍵字查詢
相關文章
正在查詢...
點晴ERP是一款針對中小制造業(yè)的專業(yè)生產管理軟件系統(tǒng),系統(tǒng)成熟度和易用性得到了國內大量中小企業(yè)的青睞。
點晴PMS碼頭管理系統(tǒng)主要針對港口碼頭集裝箱與散貨日常運作、調度、堆場、車隊、財務費用、相關報表等業(yè)務管理,結合碼頭的業(yè)務特點,圍繞調度、堆場作業(yè)而開發(fā)的。集技術的先進性、管理的有效性于一體,是物流碼頭及其他港口類企業(yè)的高效ERP管理信息系統(tǒng)。
點晴WMS倉儲管理系統(tǒng)提供了貨物產品管理,銷售管理,采購管理,倉儲管理,倉庫管理,保質期管理,貨位管理,庫位管理,生產管理,WMS管理系統(tǒng),標簽打印,條形碼,二維碼管理,批號管理軟件。
點晴免費OA是一款軟件和通用服務都免費,不限功能、不限時間、不限用戶的免費OA協(xié)同辦公管理系統(tǒng)。
Copyright 2010-2025 ClickSun All Rights Reserved

主站蜘蛛池模板: 亚洲国产日韩综合久 | 人妻少妇456在线视频 | 性爱视频一区二区三区 | 国产激情无码一区二区 | 国产99久久久久久免费看 | 亚洲经色片女人a黄色片 | 日韩黄色毛片成人免费观看 | 免费无码黄网站在线观看 | 撕开胸罩胸奶头玩大胸动态图片 | 偷偷色在线男人天堂 | 亚洲国产v无码精品无广告 亚洲国产艾杏在线观看 | JIZZJIZZJIZZ中国免费 | 亚洲一区 日韩精品 中文字幕 | 国产a国产片国产 | 国产成人精品午夜福利在线播放 | 韩国色情巜肉欲夜姬 | 亚洲精品无码观看 | 天天综合—入口 | 最新av不卡在线观看 | 国产拍揄自揄 | 亚洲国产欧美日韩欧在线高清 | 欧美国产嫩的在线视频 | 国产成久久免费精品AV片天堂 | 日韩乱码人妻无码中文字幕 | 欧美精品一区二区三区在线 | 欧美三圾片在线观看 | 少妇被爽到高潮喷水久久欧美精品 | 中文字幕熟女人妻佐佐木全集在线观看 | 亚洲AV成人一区二区三区不卡 | 亚洲AV无码久久精品国产老人 | 日韩女优喷水在线视频 | 精品女生爽爽爽免费中文毛片 | 欧美人与动牲交欧美精品 | 国产精品高潮呻吟AV久久黄 | 国产午夜羞羞小视频在线观 | 少妇真实被内射视频三四区 | 亚洲av日韩专区在线观看 | 欧美日韩在大午夜爽爽影院 | 日韩欧美亚洲国产高清在线 | 国产精品猎奇系列在线观看 | 一区二区三区动漫成人在线观看 |