總金額: 會員:NT$ 0 非會員:NT$ 0 
(此金額尚未加上運費)
電子電信技術 電腦技術 自動化基礎理論
 
 
 
 
PySpark機器學習•自然語言處理與推薦系統(配件另行下載)
 作  者: (印)普拉莫德•辛格
 出版單位: 清華大學
 出版日期: 2020.01
 進貨日期: 2020/4/17
 ISBN: 9787302540908
 開  本: 16 開    
 定  價: 443
 售  價: 354
  會 員 價: 325
推到Facebook 推到Plurk 推到Twitter
前往新書區 書籍介紹 購物流程  
 
編輯推薦:

使用PySpark構建機器學習模型、自然語言處理應用程序以及推薦系統,從而應對各種業務挑戰。本書首先介紹Spark的基礎知識,然後講解使用PySpark構建傳統機器學習算法以及自然語言處理和推薦系統的全部知識點。

本書闡釋了如何構建有監督機器學習模型,比如線性回歸、邏輯回歸、決策樹和隨機森林,還介紹了無監督機器學習模型,比如K均值和層次聚類。本書重點介紹特徵工程,以便使用PySpark創建有用的特徵,從而訓練機器學習模型。自然語言處理的相關章節將介紹文本處理、文本挖掘以及用於分類的嵌入。

在閱讀完本書之後,讀者將了解如何使用PySpark的機器學習庫構建和訓練各種機器學習模型。此外,還將熟練掌握相關的PySpark組件,從而進行數據獲取、數據處理和數據分析,開發數據驅動的智能應用。


內容簡介:

使用PySpark構建機器學習模型、自然語言處理應用程序以及推薦系統,從而應對各種業務挑戰。該書首先介紹Spark的基礎知識及其演進,然後講解使用PySpark構建傳統機器學習算法以及自然語言處理和推薦系統的全部知識點。
  《PySpark機器學習、自然語言處理與推薦系統》闡釋如何構建有監督機器學習模型,比如線性回歸、邏輯回歸、決策樹和隨機森林,還介紹了無監督機器學習模型,比如K均值和層次聚類。該書重點介紹特徵工程,以便使用PySpark創建有用的特徵,從而訓練機器學習模型。自然語言處理的相關章節將介紹文本處理、文本挖掘以及用於分類的嵌入。


  在閱讀完該書後,讀者將了解如何使用PySpark的機器學習庫構建和訓練各種機器學習模型。此外,還將熟練掌握相關的PySpark組件,比如數據獲取、數據處理和數據分析,通過使用它們開發數據驅動的智能應用。


作者簡介:

普拉莫德·辛格(Pramod Singh),是Publicis.Sapient公司數據科學部門的經理,目前正作為數據科學跟蹤負責人與梅賽德斯奔馳的一個項目進行合作。他在機器學習、數據工程、編程,以及為各種業務需求設計算法方面擁有豐富的實踐經驗,領域涉及零售、電信、汽車以及日用消費品等行業。他在Publicis.Sapient主導了大量應對機器學習和AI的戰略計劃。他在孟買大學獲得了電氣與電子工程的學士學位,並且在印度共生國際大學獲得了MBA學位f運營&財務),還在IIM - Calcutta(印度管理學院加爾各答分校)獲得了數據分析認證。在過去八年中,他一直在跟進多個數據項目。在大量客戶項目中,他使用R、Python、Spark和TensorFlow應用機器學習和深度學習技術。他一直是各重大會議和大學的演講常客。他會在Publicis.Sapient舉辦數據科學聚合併且定期出席關於ML和AI的網絡研討會。他和妻子以及兩歲的兒子居住在班加羅爾。閒暇的時候,他喜歡彈吉他、寫代碼、閱讀以及觀看足球比賽。


圖書目錄:

第1章 數據革命
1.1 數據生成
1.2 Spark
1.2.1 Spark Core
1.2.2 Spark組件
1.3 設置環境
1.3.1 Windows
1.3.2 iOS
1.4 小結

第2章 機器學習簡介
2.1 有監督機器學習
2.2 無監督機器學習
2.3 半監督機器學習
2.4 強化學習
2.5 小結

第3章 數據處理
3.1 加載和讀取數據
3.2 添加一個新列
3.3 篩選數據
3.3.1 條件1
3.3.2 條件2
3.4 列中的非重複值
3.5 數據分組
3.6 聚合
3.7 用戶自定義函數(UDF)
3,7.1 傳統的Python函數
3.7.2 使用lambda函數
3.7.3 Pandas UDF(向量化的UDF)
3.7.4 Pandas UDF(多列)
3.8 去掉重複值
3.9 刪除列
3.10 寫入數據
3.10.1 csv
3.10.2 嵌套結構
3.11 小結

第4章 線性回歸
4.1 變量
4.2 理論
4.3 說明
4.4 評估
4.5 代碼
4.5.1 數據信息
4.5.2 步驟1:創建
SparkSession對象
4.5.3 步驟2:讀取數據集
4.5.4 步驟3:探究式數據分析
4.5.5 步驟4:特徵工程化
4.5.6 步驟5:劃分數據集
4.5.7 步驟6:構建和訓練線性回歸模型
4.5.8 步驟7:在測試數據上評估線性回歸模型
4.6 小結

第5章 邏輯回歸
5.1 概率
5.1.1 使用線性回歸
5.1.2 使用Logit
5.2 截距(回歸係數)
5.3 虛變量
5.4 模型評估
5.4.1 正確的正面預測
5.4.2 正確的負面預測
5.4.3 錯誤的正面預測
5.4.4 錯誤的負面預測
5.4.5 準確率
5.4.6 召回率
5.4.7 精度
5.4.8 F1分數
5.4.9 截斷/閾值概率
5.4.10 ROC曲線
5.5 邏輯回歸代碼
5.5.1 數據信息
5.5.2 步驟1:創建Spark會話對象
5.5.3 步驟2:讀取數據集
5.5.4 步驟3:探究式數據分析
5.5.5 步驟4:特徵工程
5.5.6 步驟5:劃分數據集
5.5.7 步驟6:構建和訓練邏輯回歸模型
5.5.8 訓練結果
5.5.9 步驟7:在測試數據上評估線性回歸模型
5.5.10 混淆矩陣
5.6 小結
……
第6章 隨機森林
第7章 推薦系統


章節試讀:

隨著人工智能的興起,與之相關的知識和技術越來越受大眾所關注,神經網絡、機器學習、深度學習、自然語言處理等專業術語也開始為大家所廣泛探討。現在市面上可用的大數據處理分析甚或人工智能框架很多,所以對於剛入門或者想要入門的新手而言,選擇一款合適的框架作為起步學習之用是非常重要的。
  作為目前處理和使用大數據的使用最廣泛的框架之一,Spark已經被各大企業投入實際應用中。Spark是在Scala中設計的,以強大的處理速度和緩存能力見長,不過對於程序員來說,考慮到語法和標準庫,Python相對來說更容易學習,而且Python是數據分析、機器學習等方面使用最廣泛的編程語言之一。因此,為了支持Spark和Python,Apache Spark社區發布了PySpark,也就是說,PySpark是Spark的Python Shell。
  本書首先將介紹機器學習和Spark,然後會結合大數據進一步詳細講解機器學習,進而通過示例展示如何使用PySpark構建推薦系統和NLP。雖然是一本與機器學習有關的專業技術書籍,但本書內容淺顯易懂,對於剛開始接觸PySpark並且想要系統地理解PySpark基礎知識結構以及相關算法的讀者而言,本書將會是很好的入門指南。
  本書不僅涵蓋與PySpark組件相關的知識,比如數據獲取、數據處理和數據分析等,還講解如何使用PySpark構建基礎的機器學習算法和模型。相信在閱讀完本書後,讀者將獲悉如何將PySpark用於工作實踐之中,並且可以用來構建專業的人工智能應用。
  在此要特別感謝清華大學出版社的編輯們,在本書翻譯過程中他們提供了頗有助益的幫助,沒有他們的熱情付出,本書將難以付梓。
  由於譯者水平有限,難免會出現一些錯誤或翻譯不準確的地方,如果讀者能夠指出並勘正,譯者將不勝感激。

 
  步驟一.
依據網路上的圖書,挑選你所需要的書籍,根據以下步驟進行訂購
選擇產品及數量 結 帳 輸入基本資料 取貨與付款方式
┌───────────────────────────────────────────────────┘
資料確定 確認結帳 訂單編號    

步驟二.
完成付款的程序後,若採用貨到付款等宅配方式,3~7天內 ( 例假日將延期一至兩天 ) 您即可收到圖書。若至分店門市取貨,一週內聯絡取書。

步驟三.
完成購書程序者,可利用 訂單查詢 得知訂單進度。

注意事項.
● 付款方式若為網路刷卡必須等" 2 ~ 3 個工作天"確認款項已收到,才會出貨.如有更改書籍數量請記得按更新購物車,謝謝。

● 大陸出版品封面老舊、磨痕、凹痕等均屬常態,除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。

● 至2018年起,因中國大陸環保政策,部分書籍配件以QR CODE取代光盤音頻mp3或dvd,已無提供實體光盤。如需使用學習配件,請掃描QR CODE 連結至當地網站註冊並通過驗證程序,方可下載使用。造成不便,敬請見諒。

● 我們將保留所有商品出貨權利,如遇缺書情形,訂單未達免運門檻運費需自行負擔。

預訂海外庫存.
商品到貨時間須4週,訂單書籍備齊後方能出貨,如果您有急用書籍,建議與【預訂海外庫存】商品分開訂購。