Hadoop+Spark大數據巨量分析與機器學習整合開發實戰

· 博碩文化股份有限公司
5.0
1 review
Ebook
528
Pages

About this ebook

◆技術為金融財務、行銷分析、商業趨勢預測帶來全新的變革
◆詳實的安裝設定與程式編寫說明降低學習入門門檻
◆可單機執行或以實機╱虛擬機器建立多台演算陣列
◆具備大量實務案例分析與程式碼範例實作

大數據分析與機器學習人工智慧帶來資訊科技革命的第五波新浪潮
   創新產業      大量商機      人才需求

一般人可能會認為大數據需要很多台機器的環境才能學習,但是本書透過虛擬機器的方法,
就能在自家電腦演練建立Hadoop叢集,並且建立Spark開發環境。
以實機操作介紹Hadoop MapReduce與HDFS基本概念,以及Spark RDD與MapReduce基本觀念。
以大數據分析實務案例:MoiveLens(電影喜好推薦引擎)、StumbleUpon(網頁二元分類)、
CovType(林相土地演算)、Bike Sharing(Ubike類租賃預測分析)。
配合範例程式碼來介紹各種機器學習演算法,示範如何擷取資料、訓練資料、建立模型、預測結果,
由淺而深介紹Spark機器學習。

 大數據對每個領域都造成影響。在商業、經濟及其他領域中,將大量資料進行分析後,就可得出許多資料關聯性。可用於預測商業趨勢、行銷研究、金融財務、疾病研究、打擊犯罪等。大數據對每一個公司的決策方式將發生變革-決策方式將基於資料和分析的結果,而不是依靠經驗和直覺。
 資訊科技浪潮第一波是大型電腦,第二波是個人電腦,第三波是網路,第四波是社群媒體,第五波科技則是「大數據」。每一波的的資訊科技浪潮,總是帶來工作與生活方式的改變,創造大量商機、新的產業、大量的工作機會。像是在網路時代,創造了Google、Amazon 等大公司,以及無數.com 公司。
 每一波浪潮開始時,需求的相關人才最多,但是此時也是相關人才供應最少。因此對個人而言,如果能在浪潮興起時就投入,往往成果最豐碩,並且有機會占有重要職位。像是網路剛興起時,每個公司都需要建立網站,但是相對這方面的人才不夠。那時候能撰寫網頁相關程式語言的工程師就能夠獲得高薪。但是後來投入的人越來越多,這方面的工程師就沒有那麼吃香了。
 之前的科技浪潮,也許你沒有機會躬逢其盛,或是沒有機會在浪潮初期進入。但是大數據的浪潮方興未艾,正是進入的好時機。根據IBM 調查預估,大數據目前的商機是71 億美元,並將以每年增長20%速度持續成長,預計2015 年達到180 億美元。機會是給有準備的人,學會了大數據分析的相關技能,讓你有機會獲得更好的薪資與發展前景。根據美國調查機構Robert Half Technology 2016 年趨勢報告,在美國大數據工程師,薪水年成長8.9%,年薪大約13 萬至18 萬美金(約新台幣429 萬元~594 萬元)。因為人才短缺,企業不惜重金挖角。(你可以在google 搜尋Robert Half Technology 2016 就可以下載此調查報告)
 本書的主題是Haddop+Spark大數據分析與機器學習。Hadoop 大家已經知道是運用最多的大數據平台,然而Spark 異軍突起,與Hadoop 相容而且執行速度更快,各大公司也開始加入Spark 開發。例如IBM 加入Apache Spark 社群打算培育百萬名資料科學家。Google 與微軟也分別應用了Spark 的功能來建置服務、發展大數據分析雲端與機器學習平臺。這些大公司的加入,也意味著未來更多公司會採用Hadoop+Spark 進行大數據資料分析。
 然而目前市面上雖然很多大數據的書,但是多半偏向理論或應用層面的介紹,網路上的資訊雖然很多,但是也很雜亂。本書介紹希望能夠用淺顯易懂原理說明,再加上實機操作、範例程式,能夠降低大數據技術的學習門檻,帶領讀者進入大數據與機器學習的領域。當然整個大數據的生態系非常龐大,需要學習的東西太多。希望讀者能透過本書有了基本概念後,比較容易踏入這門領域,能繼續深入研究其他大數據的相關技術。

◆技術為金融財務、行銷分析、商業趨勢預測帶來全新的變革
◆詳實的安裝設定與程式編寫說明降低學習入門門檻
◆可單機執行或以實機╱虛擬機器建立多台演算陣列
◆具備大量實務案例分析與程式碼範例實作

大數據分析與機器學習人工智慧帶來資訊科技革命的第五波新浪潮
   創新產業      大量商機      人才需求

一般人可能會認為大數據需要很多台機器的環境才能學習,但是本書透過虛擬機器的方法,
就能在自家電腦演練建立Hadoop叢集,並且建立Spark開發環境。
以實機操作介紹Hadoop MapReduce與HDFS基本概念,以及Spark RDD與MapReduce基本觀念。
以大數據分析實務案例:MoiveLens(電影喜好推薦引擎)、StumbleUpon(網頁二元分類)、
CovType(林相土地演算)、Bike Sharing(Ubike類租賃預測分析)。
配合範例程式碼來介紹各種機器學習演算法,示範如何擷取資料、訓練資料、建立模型、預測結果,
由淺而深介紹Spark機器學習。

 大數據對每個領域都造成影響。在商業、經濟及其他領域中,將大量資料進行分析後,就可得出許多資料關聯性。可用於預測商業趨勢、行銷研究、金融財務、疾病研究、打擊犯罪等。大數據對每一個公司的決策方式將發生變革-決策方式將基於資料和分析的結果,而不是依靠經驗和直覺。
 資訊科技浪潮第一波是大型電腦,第二波是個人電腦,第三波是網路,第四波是社群媒體,第五波科技則是「大數據」。每一波的的資訊科技浪潮,總是帶來工作與生活方式的改變,創造大量商機、新的產業、大量的工作機會。像是在網路時代,創造了Google、Amazon 等大公司,以及無數.com 公司。
 每一波浪潮開始時,需求的相關人才最多,但是此時也是相關人才供應最少。因此對個人而言,如果能在浪潮興起時就投入,往往成果最豐碩,並且有機會占有重要職位。像是網路剛興起時,每個公司都需要建立網站,但是相對這方面的人才不夠。那時候能撰寫網頁相關程式語言的工程師就能夠獲得高薪。但是後來投入的人越來越多,這方面的工程師就沒有那麼吃香了。
 之前的科技浪潮,也許你沒有機會躬逢其盛,或是沒有機會在浪潮初期進入。但是大數據的浪潮方興未艾,正是進入的好時機。根據IBM 調查預估,大數據目前的商機是71 億美元,並將以每年增長20%速度持續成長,預計2015 年達到180 億美元。機會是給有準備的人,學會了大數據分析的相關技能,讓你有機會獲得更好的薪資與發展前景。根據美國調查機構Robert Half Technology 2016 年趨勢報告,在美國大數據工程師,薪水年成長8.9%,年薪大約13 萬至18 萬美金(約新台幣429 萬元~594 萬元)。因為人才短缺,企業不惜重金挖角。(你可以在google 搜尋Robert Half Technology 2016 就可以下載此調查報告)
 本書的主題是Haddop+Spark大數據分析與機器學習。Hadoop 大家已經知道是運用最多的大數據平台,然而Spark 異軍突起,與Hadoop 相容而且執行速度更快,各大公司也開始加入Spark 開發。例如IBM 加入Apache Spark 社群打算培育百萬名資料科學家。Google 與微軟也分別應用了Spark 的功能來建置服務、發展大數據分析雲端與機器學習平臺。這些大公司的加入,也意味著未來更多公司會採用Hadoop+Spark 進行大數據資料分析。
 然而目前市面上雖然很多大數據的書,但是多半偏向理論或應用層面的介紹,網路上的資訊雖然很多,但是也很雜亂。本書介紹希望能夠用淺顯易懂原理說明,再加上實機操作、範例程式,能夠降低大數據技術的學習門檻,帶領讀者進入大數據與機器學習的領域。當然整個大數據的生態系非常龐大,需要學習的東西太多。希望讀者能透過本書有了基本概念後,比較容易踏入這門領域,能繼續深入研究其他大數據的相關技術。

Ratings and reviews

5.0
1 review

Reading information

Smartphones and tablets
Install the Google Play Books app for Android and iPad/iPhone. It syncs automatically with your account and allows you to read online or offline wherever you are.
Laptops and computers
You can listen to audiobooks purchased on Google Play using your computer's web browser.
eReaders and other devices
To read on e-ink devices like Kobo eReaders, you'll need to download a file and transfer it to your device. Follow the detailed Help Center instructions to transfer the files to supported eReaders.