日韩国产精品无码一区二区三区 ,无码国产色欲XXXXX视频,在线观看免费高清AⅤ片,欧美三级不卡在线观看

分布式架構或將成為金融行業(yè)信息化的主要發(fā)展方向

9-12-2018

       近兩年,大數(shù)據(jù)分布式架構成為金融行業(yè)關鍵詞匯,圍繞分布式架構分布式計算、分布式存儲、分布式網絡成為信息科技的主流。金融各個子行業(yè)包括銀行、保險、證券、信托行業(yè),紛紛采取分布式架構和相關技術建設新系統(tǒng)或重構原有系統(tǒng),利用分布式架構的高可擴展性、高處理效率、強容錯能力特點,來提升信息系統(tǒng)的靈活性,降低成本,保障供應安全。

       中金智匯的大數(shù)據(jù)架構經歷了三個主要階段:

       a. 使用Gearman基于MapReduce思想實現(xiàn)自研的分布式處理架構。

       b. 引入Hadoop解決自研分布式處理架構網絡IO問題。

       c. 引入Spark解決Hadoop小規(guī)模數(shù)據(jù)集處理性能不足,以及磁盤IO等問題。


1.1 Gearman

架構

       Gearman驅動的應用程序由三部分組成:Client(客戶端),Worker(工作者)和JobServer(作業(yè)服務器)。


       · Client負責創(chuàng)建要運行的作業(yè)并將其發(fā)送到JobServer。

       · JobServer將找到一個合適的工作人員,可以運行該作業(yè)并轉發(fā)給Worker。

       · Worker執(zhí)行Client的工作,并通過JobServer向Client發(fā)送響應。


       Gearman提供應用程序調用的Client和Worker API,以與Gearman JobServer(也稱為gearmand)進行通信,因此無需處理網絡或作業(yè)映射。在內部,Gearman Client和Worker API使用TCP協(xié)議與JobServer通信。

優(yōu)點

       Gearman實現(xiàn)了基本的MapReduce思想,Client將一個大任務拆分成多個小任務后,發(fā)送給多個Worker并行處理,將處理結果返回Client。

缺點

       Gearman在處理大量數(shù)據(jù)的場景下,由于JobServer不清楚要處理的數(shù)據(jù)存儲到哪個對應的Worker上,所以導致Worker接到任務時首先需要去公共存儲中獲取數(shù)據(jù),導致大量的網絡IO,從而導致性能不足。


1.2 Hadoop

架構

        HDFS集群由NameNode管理文件系統(tǒng)命名空間的主服務器和管理客戶端對文件的訪問組成。此外,還有許多DataNode,通常是群集中每個節(jié)點一個,用于管理連接到它們運行的節(jié)點的存儲。HDFS公開文件系統(tǒng)命名空間,并允許用戶數(shù)據(jù)存儲在文件中。在內部,文件被分成一個或多個塊,這些塊存儲在一組DataNode中。


       · NameNode執(zhí)行文件系統(tǒng)命名空間操作,如打開,關閉和重命名文件和目錄。它還確定了塊到DataNode的映射。

       · DataNode負責提供來自文件系統(tǒng)客戶端的讀寫請求。 DataNode還根據(jù)NameNode的指令執(zhí)行塊創(chuàng)建,刪除和復制。

       Hadoop MapReduce作業(yè)通常將輸入數(shù)據(jù)集拆分為獨立的塊,這些塊由Map任務以完全并行的方式處理。Hadoop MapReduce對Map的輸出進行排序,然后輸入到Reduce任務。通常,作業(yè)的輸入和輸出都存儲在文件系統(tǒng)中。Hadoop MapReduce負責調度任務,監(jiān)視它們并重新執(zhí)行失敗的任務。


優(yōu)點

        Hadoop已經完全實現(xiàn)了MapReduce的分布式處理思想,同時在其基礎上完成失敗重試等功能。同時在Hadoop的架構設計中,由于NameNode已經記錄了每個數(shù)據(jù)塊具體存在哪些個DataNode上,所以在執(zhí)行Map任務的分發(fā)時,會根據(jù)NameNode的存儲記錄表,將需要處理的任務直接分發(fā)到有該任務需要的數(shù)據(jù)的DataNode上進行處理,解決了之前介紹Gearman的缺點,從而導致DataNode處理任務時,不需要去其他服務器獲取數(shù)據(jù),解決了網絡IO瓶頸的問題,提高了任務處理效率。


缺點



       由于Hadoop設計時算子單一(只有Map和Reduce)導致如果要完成一個多步驟任務時,每一個步驟都需要寫一個Map和Reduce,同時每個Map和Reduce的執(zhí)行過程代表數(shù)據(jù)至少會落地一次,所以導致執(zhí)行整個任務中會出現(xiàn)大量的磁盤IO,從而影響了處理效率。


1.3 Spark

架構

       · Spark中的Driver即運行程序的主函數(shù)并創(chuàng)建SparkContext,創(chuàng)建SparkContext的目的是為了準備Spark應用程序的運行環(huán)境,在Spark中有SparkContext負責進行資源申請、任務的分配和監(jiān)控等,當Executor部分運行完畢后,Driver同時負責將SparkContext關閉,通常用SparkContext代表Driver。

       · Executor是某個Application運行在工作節(jié)點上的一個進程, 該進程負責運行計算任務,并且負責將數(shù)據(jù)存到內存或磁盤上,每個程序都有各自獨立的一批Executor,在Spark on Yarn模式下,其進程名稱為CoarseGrainedExecutor Backend。一個CoarseGrainedExecutor Backend有且僅有一個Executor對象, 負責將任務包裝成TaskRunner,并從線程池中抽取一個空閑線程運行Task, 這個每一個CoarseGrainedExecutor Backend能并行運行Task的數(shù)量取決與分配給它的Cpu個數(shù)。


優(yōu)點

       和Hadoop MapReduce相比Spark通過使用內容代替磁盤作為處理過程中間數(shù)據(jù)的存儲,從而減少了在磁盤IO上的開銷,解決了Hadoop的性能問題。同時設計了彈性分布式數(shù)據(jù)集(RDD)的數(shù)據(jù)結構作為數(shù)據(jù)處理的基礎單元,配合有向無環(huán)圖(DAG)、Pipline等技術減少了運算步驟,提高了執(zhí)行效率。

1.4Hadoop+Spark

原理

       由于Spark最出色的就是計算框架,其資源調度框架(Standalone模式)對復雜場景的資源調度略顯不足。所以和Hadoop的資源調度框架(Yarn)和底層存儲框架(HDSF)組合使用,這樣做既可以繼承了Spark計算框架的全部優(yōu)勢,也可以解決了Hadoop MapReduce的問題。

       廣發(fā)銀行信用卡中心,擁有6000余坐席,約4.2億 通電話/年,每天3.6萬小時 的語音量,最初領導層根據(jù)企業(yè)發(fā)展戰(zhàn)略,預見了未來企業(yè)自身和應用技術的發(fā)展趨勢,早在2014年便與原中金數(shù)據(jù)大數(shù)據(jù)事業(yè)部現(xiàn)中金智匯簽訂了合作協(xié)議,運用分布式大數(shù)據(jù)底層架構開展上層業(yè)務。

       中金智匯利用分布式大數(shù)據(jù)技術架構,將原來無法方便處理、 非結構化的數(shù)據(jù)進行解析、分析和挖掘 。將原來每天必須要人工抽樣低效模式,變成每天使用機器全量高效模式。使得卡中心從原來一天處理37件,到現(xiàn)在一天可以處理18000件,創(chuàng)造了500%顛覆性提升 。

       中金智匯通過四年來語音庫數(shù)據(jù)的積累,結合分布式大數(shù)據(jù)技術架構、產品快速創(chuàng)新能力和深入行業(yè)的應用經驗。不斷的對積累數(shù)據(jù)進行分析和挖掘,去尋求和發(fā)現(xiàn)海量數(shù)據(jù)背后的價值,從而衍生了多種適合卡中心的分析和挖掘的數(shù)據(jù)模型。使得卡中心在客戶投訴率下降10%-20%客戶滿意度上升10%-20%,員工技能提升5%-15%等等的業(yè)務價值增長。為其改善了風險防控之外的服務流程優(yōu)化 20 余項,陸續(xù)開拓了營銷效果監(jiān)控及信審合規(guī)等業(yè)務范圍,為廣發(fā)銀行在智能營銷、信用卡分期方面帶來極大營收。

       憑借技術的先進性、產品的創(chuàng)新性、方案的有效性,中金智匯積累了金融、政府、互聯(lián)網等多個行業(yè)大中型客戶的成功應用案例,并得到了市場的廣泛認同,陸續(xù)服務包括交通銀行、大地保險、同程旅游、中國一汽等在內的數(shù)十家大中型企業(yè)客戶,積累了跨銀行、保險、商旅、車企、物流、BPO等多個行業(yè)與領域的客戶案例,并與中科院聲學所、北京郵電大學、騰訊、第四范式等資深科研機構及領軍行業(yè)企業(yè)建立了廣泛的合作關系。

        大數(shù)據(jù)的未來就是人工智能,而人工智能需要依靠底層分布式大數(shù)據(jù)架構的支撐得以實現(xiàn)。中金智匯利用底層分布式大數(shù)據(jù)架構結合語音識別、NLP/NLU、深度學習等技術在聯(lián)絡中心數(shù)據(jù)分析、實時坐席助手 等場景均實現(xiàn)了可用于生產的智能應用產品。當然,這還遠遠不夠……

        “這是一個最好的時代”!在未來,中金智匯會基于大數(shù)據(jù)架構體系及完備的應用場景結合產品快速創(chuàng)新能力,為追求高效客戶經營能力的企業(yè),提供領先、專業(yè)、可靠的智能化應用產品和服務,而持續(xù)努力著!