總金額: 會員:NT$ 0 非會員:NT$ 0 
(此金額尚未加上運費)
電子電信技術 電腦技術 計算技術、計算機技術
 
 
 
 
Python大數據與機器學習實戰(配件另行下載)
 作  者: 謝彥
 出版單位: 電子工業
 出版日期: 2020.04
 進貨日期: 2020/6/4
 ISBN: 9787121384257
 開  本: 16 開    
 定  價: 893
 售  價: 476
  會 員 價: 476
推到Facebook 推到Plurk 推到Twitter
前往新書區 書籍介紹 購物流程  
 
內容簡介:

本書結合作者十餘年軟件開發、系統架構、算法實戰及培訓經驗,致力於系統地闡釋Python大數據和機器學習技術。

從數據的採集、存儲、清洗;到建立模型、統計分析;最終用前端程序呈現給用戶的數據展示;以及後台的系統服務支持。

結合了Python數據工具使用、算法原理、以及典型實例各個層面,希望讀者通過對本書的閱讀,少走彎路,以的學習成本得到的知識收益。


作者簡介:

謝彥,從事軟件開發和算法研發十餘年,曾就職於聯想研究院、元心科技等公司。參與研發機頂盒、上網本、智能手機操作系統,工作涉及上層應用、集群構建、圖形底層優、語音合成與識別、數據挖掘、深度學習算法等。帶領團隊經驗豐富,擅長團隊內部人才培訓。個人開發的應用“天琴語音閱讀器”用戶數達百萬量級,近兩年撰寫數據挖掘和機器學習文章百餘篇,CSDN閱讀量100多萬人次。現就職於和興創聯健康科技有限公司,專注於醫療大數據應用研發。作者的公眾號:算法學習分享。


圖書目錄:

第1章 Python大數據開發入門 1
1.1 大數據工程師必備技能 1
1.2 Python開發環境 5
1.2.1 Windows環境 5
1.2.2 Linux環境 7
1.2.3 Docker環境 10
1.3 Python開發工具 16
1.3.1 Python命令行環境 16
1.3.2 Jupyter環境 18
1.4 Python數據類型 23
1.4.1 數值 24
1.4.2 字符串 24
1.4.3 列表 25
1.4.4 元組 26
1.4.5 集合 26
1.4.6 字典 27
1.5 Python函數和類 27
1.5.1 定義和使用函數 28
1.5.2 lambda匿名函數 28
1.5.3 類和繼承 28
1.6 Python常用庫 29
1.6.1 Python內置庫 29
1.6.2 Python圖形圖像處理 30
1.6.3 Python自然語言處理 31
1.6.4 Python數據分析和
處理 32
1.6.5 Python機器學習 33
1.7 Python技巧 34
1.7.1 Python程序調試 34
1.7.2 去掉警告信息 35
1.7.3 製作和導入模塊 36
1.7.4 異常處理 37
1.8 Python常見問題 38
第2章 科學計算Numpy 40
2.1 多維數組 40
2.1.1 創建數組 40
2.1.2 訪問數組 42
2.1.3 修改數組 43
2.2 數組元素運算 44
2.2.1 一元函數 44
2.2.2 二元函數 45
2.2.3 廣播 46
2.2.4 自定義ufunc函數 47

2.3 常用函數 48
2.3.1 分段函數 48
2.3.2 統計函數 49
2.3.3 組合與分割 51
2.3.4 矩陣與二維數組 52
2.3.5 其他常用函數 54
第3章 數據操作Pandas 55
3.1 數據對象 55
3.1.1 Series對象 55
3.1.2 DataFrame對象 57
3.1.3 Index對象 60
3.2 數據存取 63
3.2.1 訪問數據表元素 63
3.2.2 修改數據表元素 66
3.3 分組運算 68
3.3.1 分組 69
3.3.2 聚合 70
3.3.3 轉換 71
3.3.4 過濾 72
3.3.5 應用 72
3.4 日期時間處理 73
3.4.1 Python日期時間處理 73
3.4.2 Pandas日期時間處理 75
3.4.3 時間序列操作 76
3.4.4 數據重排 84
第4章 數據可視化 86
4.1 Matplotlib繪圖庫 87
4.1.1 準備工作 87
4.1.2 散點圖與氣泡圖 88
4.1.3 線圖 90

4.1.4 柱圖 92
4.1.5 餅圖 95
4.1.6 箱線圖和小提琴圖 96
4.1.7 三維圖 97
4.1.8 Matplotlib繪圖區域 100
4.1.9 文字顯示問題 103
4.1.10 導出圖表 104
4.1.11 Matplotlib技巧 105
4.2 Seaborn高級數據可視化 107
4.2.1 準備工作 107
4.2.2 連續變量相關圖 108
4.2.3 分類變量圖 109
4.2.4 回歸圖 113
4.2.5 多圖組合 115
4.2.6 熱力圖 118
4.2.7 印刷品作圖 119
4.3 PyEcharts交互圖 119
4.3.1 ECharts 119
4.3.2 準備工作 120
4.3.3 繪製交互圖 120
4.3.4 在網頁中顯示圖 123
第5章 獲取數據 125
5.1 讀寫文件 126
5.1.1 讀寫文本文件 126
5.1.2 寫日誌文件 127
5.1.3 讀寫XML文件 128
5.1.4 讀寫Json文件 130
5.1.5 讀寫CSV文件 131
5.1.6 讀寫PKL文件 132
5.1.7 讀寫HDF5文件 133
5.1.8 讀寫Excel文件 134

5.2 讀寫數據庫 135
5.2.1 數據庫基本操作 136
5.2.2 Python存取MySQL
數據庫 138
5.2.3 Python存取SQL Server
數據庫 140
5.2.4 Python存取Sqlite
數據庫 143
5.2.5 Python存取Dbase
數據庫 143
5.3 讀寫數據倉庫 144
5.3.1 讀取ElasticSearch
數據 144
5.3.2 讀取S3雲存儲數據 146
5.3.3 讀取Hive數據 148
5.4 獲取網絡數據 151
5.4.1 從網絡接口讀取
數據 151
5.4.2 抓取網站數據 152
5.4.3 使用POST方法抓取
數據 153
5.4.4 轉換HTML文件 153
5.5 選擇數據存儲方式 154
第6章 數據預處理 155
6.1 數據類型識別與轉換 155
6.1.1 基本類型轉換 156
6.1.2 數據類型識別 157
6.2 數據清洗 158
6.2.1 缺失值處理 158
6.2.2 異常值處理 160
6.2.3 去重處理 162
6.3 數據歸約 163
6.3.1 經驗篩選特徵 163
6.3.2 統計學方法篩選
特徵 163
6.3.3 模型篩選特徵 164
6.3.4 數學方法降維 165
6.4 數據抽樣 166
6.4.1 簡單隨機抽樣 167
6.4.2 系統抽樣 168
6.4.3 分層抽樣 168
6.4.4 整群抽樣 168
6.5 數據組合 169
6.5.1 merge函數 169
6.5.2 concat函數 170
6.6 特徵提取 171
6.6.1 數值型特徵 171
6.6.2 分類型特徵 171
6.6.3 字符型特徵 172
第7章 數據分析 175
7.1 入門實例 175
7.2 假設檢驗 177
7.2.1 基本概念 177
7.2.2 假設檢驗的步驟 178
7.2.3 統計分析工具 178
7.3 參數檢驗與非參數檢驗 179
7.3.1 正態性檢驗 179
7.3.2 方差齊性檢驗 181
7.3.3 分析檢驗結果 182
7.4 T檢驗 182
7.4.1 單樣本T檢驗 182
7.4.2 獨立樣本T檢驗 183

7.4.3 配對樣本T檢驗 183
7.5 方差分析 184
7.6 秩和檢驗 185
7.7 卡方檢驗 186
7.8 相關性分析 187
7.8.1 圖形描述相關性 188
7.8.2 正態資料的相關
分析 189
7.8.3 非正態資料的相關
分析 190
7.9 變量分析 190
7.9.1 單變量分析 190
7.9.2 多變量分析 191
7.10 TableOne工具 193
7.11 統計方法總結 194
第8章 機器學習基礎知識 196
8.1 基本概念 196
8.1.1 深度學習、機器學習、
人工智能 197
8.1.2 有監督學習、無監督
學習、半監督學習 197
8.1.3 訓練集、驗證集、
測試集 198
8.1.4 過擬合與欠擬合 198
8.1.5 常用術語 199
8.2 評價模型 199
8.2.1 方差、協方差、協
方差矩陣 200
8.2.2 距離與范數 204
8.2.3 回歸效果評估 207
8.2.4 分類效果評估 210
第9章 機器學習模型與工具 216
9.1 基於距離的算法 217
9.1.1 K近鄰算法 217
9.1.2 聚類算法 219
9.2 線性回歸與邏輯回歸 221
9.2.1 線性回歸 222
9.2.2 邏輯回歸 225
9.3 支持向量機 226
9.4 信息熵和決策樹 230
9.4.1 信息量和熵 231
9.4.2 決策樹 234
9.5 關聯規則 236
9.5.1 Apriori關聯規則 237
9.5.2 FP-Growth關聯
分析 240
9.6 貝葉斯模型 242
9.6.1 貝葉斯公式 242
9.6.2 樸素貝葉斯算法 244
9.6.3 貝葉斯網絡 248
9.7 隱馬爾可夫模型 250
9.8 集成算法 254
第10章 模型選擇與相關技術 259
10.1 數據準備與模型選擇 259
10.1.1 預處理 259
10.1.2 選擇模型 260
10.2 自動機器學習框架 263
10.2.1 框架原理 263
10.2.2 Auto-Sklearn 264
10.2.3 Auto-ML 266
10.2.4 Auto-Keras 267

10.3 自然語言處理 269
10.3.1 分詞工具 269
10.3.2 TF-IDF 271
10.4 建模相關技術 274
10.4.1 切分數據集與交叉
驗證 274
10.4.2 模型調參 276
10.4.3 學習曲線和驗證
曲線 279
10.4.4 保存模型 282
第11章 大數據競賽平台 283
11.1 定義問題 283
11.1.1 強人工智能與弱
人工智能 284
11.1.2 Datathon競賽 285
11.2 算法競賽 286
11.2.1 大數據競賽平台
優勢 287
11.2.2 Kaggle大數據
平台 288
11.2.3 實戰泰坦尼克號
倖存問題 288
11.2.4 國內大數據平台 294
11.2.5 賽題選擇 294
11.2.6 比賽注意事項 295
第12章 決策問題:幸福感挖掘 296
12.1 賽題解讀 296
12.2 模型初探 297
12.3 模型調優 299
12.3.1 模型粗調 299
12.3.2 模型精調 300
12.4 模型輸出 305
12.4.1 顯示決策樹 305
12.4.2 特徵重要性 306
12.5 XGBoost模型 307
12.5.1 XGBoost參數分析 307
12.5.2 XGBoost原理解析 308
12.5.3 XGBoost源碼分析 312
第13章 遷移學習:貓狗圖片分類 317
13.1 深度學習神經網絡 317
13.1.1 深度學習 318
13.1.2 卷積神經網絡 319
13.1.3 卷積神經網絡
發展史 321
13.2 使用現有的神經網絡模型 321
13.3 遷移學習 322
13.4 解決貓狗分類問題 323
13.4.1 數據及代碼結構 323
13.4.2 提取特徵 324
13.4.3 訓練模型和預測 325
13.4.4 訓練結果分析 326
13.4.5 代碼下載 327
第14章 圖像分割:識別圖中物體 328
14.1 Mask R-CNN算法 329
14.1.1 R-CNN 329
14.1.2 SPP Net 330
14.1.3 Fast R-CNN 330
14.1.4 Faster R-CNN 331
14.1.5 Mask R-CNN 332
14.2 Mask R-CNN源碼解析 332
14.2.1 安裝工具 332
14.2.2 源碼結構 333
14.3 訓練模型與預測 334
14.3.1 製作訓練數據 335
14.3.2 訓練模型和預測 338
14.3.3 建模相關問題 344
第15章 時間序列分析 346
15.1 時序問題處理流程 346
15.1.1 分析問題 346
15.1.2 解決思路 347
15.2 趨勢分析工具ARIMA 349
15.2.1 相關概念 349
15.2.2 模型示例 353
15.3 傅裡葉和小波變換 357
15.3.1 傅裡葉變換 358
15.3.2 小波變換 360
15.4 Prophet時序模型 361
15.4.1 模型介紹 362
15.4.2 獲取數據 362
15.4.3 模型示例 363
第16章 自然語言處理:微博互動
預測 367
16.1 賽題分析 367
16.1.1 數據分析 368
16.1.2 評價函數 369
16.1.3 目標變量分布 370
16.1.4 發博用戶統計 371
16.1.5 特殊用戶分析 371
16.1.6 整體分析 372
16.2 中文分析 372
16.2.1 正則表達式 373
16.2.2 自動提取關鍵詞 376


章節試讀:

前 言

為什麼要寫這本書?
隨著5G時代的來臨、企事業單位信息化系統的不斷完善以及物聯網的興起,數據的收集、傳輸、存儲不再是問題,數據的質量和數量都呈爆發式增長。大數據開發的焦點逐漸從數據收集統計向挖掘新功能、節約成本、創造價值的方向轉變,從而催生出大量的應用,並且開始在各個垂直領域開花結果。
人工智能和大數據技術是一門交叉學科,不僅需要計算機領域的知識和算法技術,而且還需要應用領域的相關知識和技巧才能定義和解決問題。可以說,大數據不僅是一門技術,而且是一種思維。機器從數據中學習知識、總結經驗,並不斷自我進化,整個行業將迎來從信息化向智能化蓬勃發展的時期。
從業者也將面臨前所未有的挑戰:如何定義問題、選擇數據、架構系統、評估工作量、完成工作需要哪些技能……這些問題也隨著行業的變化而逐步演進。對於從業者的技術要求越來越高,同時也產生了巨大的人才缺口。
在此時代背景下,大量學生和有經驗的程序員都希望能向人工智能和大數據的方向發展,而該領域又涉及系統集成、數據倉庫、網絡數據獲取、統計學、數學基礎、機器學習建模以及結果的展示等方面,使得該行業“門檻”比較高。對於日新月異的新興行業,技術更新迭代速度非常快,目前學校和培訓機構開設的課程有限,且水平良莠不齊。在校招時,筆者就發現本科生往往很難達到算法工程師的要求。
那麼,如何培養數據工程師並使其在有限的時間內了解整個系統的運行方式,同時出色地完成自身的工作,對學校和企業來說都是必須面對的問題。目前,市場上的大數據書籍和教程基本分為兩類:一類偏重算法概念,實用性較差,讀者的學習過程比較艱難枯燥,學習之後也很難與實際工作相結合;另一類偏重講解語言和工具的用法,實例相對簡單,與真實應用場景差別較大。
在本書的撰寫過程中,筆者遵循全面、實戰、目標導向的原則,以在實際工作中大數據工程師需要掌握的技術為目標,系統地講解了數據工程師的必備技能;由程序員轉行的數據工程師也可以從這本書中學習算法和統計學原理,在使用工具時不僅可以知其然,還可以知其所以然。在結構上,本書並沒有為保持完整性而用相同篇幅講解所有功能,而是根據實踐經驗梳理出常用的問題和場景,讓讀者用最短的時間,掌握最核心的知識,避免陷入細枝末節中。
本書有何特色?
1.從系統角度出發
本書涉及大數據工程的方方面面,從問題的定義、數據評估,到具體實現,如數據獲取(爬蟲)、數據存儲(數據庫、數據倉庫)、特徵工程、數據展示、統計分析、建立模型以及簡單的前端展示。其中,還涉及數據集群的搭建(Linux、Docker)。本書可以使讀者了解數據工作的全貌,學習整個數據系統的運作和相關技能,具有全局思維,而不只是熟悉小範圍內的具體工作。企業也可以將本書作為從事與大數據相關工作人員的培訓資料。
2.理論與實際結合
本書從始至終都本著理論和實際相結合的原則,在原理章節(第7至10章)中闡釋原理、推導公式的同時,給出例程並討論該方法常見的使用場景;在實戰章節(第11至16章)中除了展示前沿算法的使用方法,還介紹了相關概念、公式推導以及源代碼。本書把學和用聯繫起來,既能在學習時了解使用場景,又能在使用時了解其背後的原理和算法演進過程。
3.主次分明
本書並不是某一具體領域方法的羅列和知識的總結,並不為了保持其完整性使用同等篇幅介紹所有功能。本書更多地著眼於基礎知識、常見的需求和方法,盡量將它們組織起來,以解決具體問題的方式偏重關鍵點,簡略說明次要部分。在學習時間和學習難度兩方面降低讀者的學習成本。
4.前沿技術
目前,在很多偏重原理的算法書中主要講解的都是20世紀八九十年代流行的算法,這些基礎算法都是複雜算法的基礎,機器學習從業人員必須了解,但在實用方面,它們早已被當前的主流算法所取代。
本書也使用了一定篇幅講解基礎算法和統計學方法,同時在實戰章節中引入近幾年的前沿技術,如NLP領域的BERT算法、圖像分割的Mask R-CNN算法、機器學習XGBoost的原理推導以及源碼的講解。
5.典型示例
本書後半部分以實例為主,每個實例針對一種典型的問題,包括決策問題、自然語言處理、時間序列、圖像處理等,其中大部分代碼函數可以直接用在類似的場景中。同時,也在各個章節中加入了示例代碼,對於常見問題,讀者可快速找到其解決方法並且直接使用其代碼。
6.通俗易懂
本書的語言通俗易懂,並在相對生澀的算法原理章節中加入了大量舉例和相關基礎知識,盡量讓讀者在閱讀過程中無須查閱其他有關基礎知識的書籍,以提高學習效率。
本書內容及知識體系
第1章 Python編程
本章介紹作為大數據工程師需要掌握的基本技術,讓讀者對數據分析的知識體系有一個整體的認知,然後講解各種Python開發和運行環境的搭建,以及Python的基本數據結構和語法、調試技術和常見問題。不熟悉Python編程的開發者可通過學習本章掌握Python語言的特點和使用方法。
第2∼4章 Python數據分析工具
本部分詳細介紹數據處理使用的科學計算庫Numpy、數據操作庫Pandas、數據可視化工具Matplotlib和Seaborn,以及交互作圖工具PyEcharts的數據處理邏輯和常用方法示例,為後續的數據處理奠定基礎。
第5∼10章 Python數據處理與機器學習算法
本部分涉及數據採集、數據存儲、特徵工程、統計分析,建立機器學習模型的基本概念、原理、具體實現方法、統計方法和模型的選擇,以及在實現機器學習算法過程中常用的工具和技巧。其將理論、舉例和Python代碼有機地結合在一起,分別講解數據處理的每一個子模塊。
第11∼16章 Python實戰
本部分介紹決策問題、遷移學習、圖像分割、時序分析、自然語言處理,以及定義問題的方法等幾類典型的機器學習問題,兼顧使用場景分析、原理、代碼解析等層面,和讀者一起探討在實戰中解決問題的思路和方法。
適合閱讀本書的讀者
• 向人工智能和大數據方向發展的工程師。
• 學習Python算法和數據分析的工程師。
• 希望了解大數據工作全流程的行業從業者。
• 希望將數據算法應用於傳統行業的從業者(金融、醫療、經濟等)。
• 有一定的大數據理論基礎,但沒有實戰經驗的研究人員。
• 大數據和人工智能方向的創業者。
• 大數據行業的項目經理、產品經理、客戶經理、產品設計師。
• 希望了解人工智能和大數據開發的學生、教師、專業培訓機構的學員。
閱讀本書的建議
• 對於沒有Python編程基礎的讀者,建議從第1章開始閱讀並演練每一個實例。
• 對於有經驗的程序員,建議先通讀本書,對大數據相關問題建立整體認知。對於具體的語法以及庫的使用方法,不用一次掌握,只需要了解其可實現的功能,在遇到問題時能從書中速查即可。
• 算法章節難度相對較大,但原理非常重要,放平心態認真閱讀,絕大部分都能掌握,有些公式推導未必能一次理解,讀不懂的部分可先遺留。
• 本書後半部分的實例章節,強烈建議讀者在閱讀的過程中編程實現和調試,並加入自己的改進方案,因為調試代碼的效果要遠遠大於僅閱讀代碼的效果

 
  步驟一.
依據網路上的圖書,挑選你所需要的書籍,根據以下步驟進行訂購
選擇產品及數量 結 帳 輸入基本資料 取貨與付款方式
┌───────────────────────────────────────────────────┘
資料確定 確認結帳 訂單編號    

步驟二.
完成付款的程序後,若採用貨到付款等宅配方式,3~7天內 ( 例假日將延期一至兩天 ) 您即可收到圖書。若至分店門市取貨,一週內聯絡取書。

步驟三.
完成購書程序者,可利用 訂單查詢 得知訂單進度。

注意事項.
● 付款方式若為網路刷卡必須等" 2 ~ 3 個工作天"確認款項已收到,才會出貨.如有更改書籍數量請記得按更新購物車,謝謝。

● 大陸出版品封面老舊、磨痕、凹痕等均屬常態,除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。

● 至2018年起,因中國大陸環保政策,部分書籍配件以QR CODE取代光盤音頻mp3或dvd,已無提供實體光盤。如需使用學習配件,請掃描QR CODE 連結至當地網站註冊並通過驗證程序,方可下載使用。造成不便,敬請見諒。

● 我們將保留所有商品出貨權利,如遇缺書情形,訂單未達免運門檻運費需自行負擔。

預訂海外庫存.
商品到貨時間須4週,訂單書籍備齊後方能出貨,如果您有急用書籍,建議與【預訂海外庫存】商品分開訂購。