回首頁  
帳號
 
關於博碩 博碩好讀 校園圖書 MOCC認證 下載教學 元學堂

博碩好讀
  新書推薦
  出版預告
  名家名著
  iT達人祕笈
 

分類索引

 

出版總覽

 

讀者服務

  徵求作者
 
首頁 >> 書籍介紹
 
 
點我可放大圖片
 
書名:Python資料科學與機器學習:從入門到實作必備攻略
書號:MP12010 作者:Frank Kane ISBN: 978-986-434-786-5
定價:NT$650元 印刷:單色 頁數:384頁
書籍規格:17*23 上市日:2021/8/20 譯者:陳光欣
學習定位:無 本書附件:網路下載範例檔  
前往購買 >> 蝦皮購物 類別:電腦技術  
       
快速前往 快速前往        

 

 

    一次活用Python和Apache Spark,帶你精通機器學習及資料科學!



    ★提供資料科學必備的資料分析工具和技術
    ★在Python中訓練出高效能機器學習模型
    ★為你的商品打造出強而有力的推薦系統
    ★靈活運用Apache Spark進行大數據處理工作


    作者Frank Kane曾在亞馬遜和IMDb等知名企業工作,從事機器學習演算法工作。在踏入資料科學的世界中,本書將提供你探索資料科學的核心領域所需的工具,以及各種動手做練習和信心建議,讓你打造自己的機器學習模型。透過簡單易懂的實作範例及大量的圖文解說,你將學會K-Means集群、貝氏方法、預測模型、推薦系統、Apache Spark、實驗設計等核心主題。

    本書涵蓋了全面且詳盡的資料科學內容,首先帶你快速認識Python語言、基礎統計學和機率概念,接著深入討論資料探勘、機器學習相關等60多個主題。我們將用真實使用者的影評分數資料開發出一套電影推薦系統,並建立一個可實際運作的維基百科資料搜尋引擎。此外,我們還將建立一個垃圾郵件分類器,它可以將電子郵件帳戶中的垃圾郵件和正常郵件進行正確分類。此外,本書還有一個章節專門介紹如何將這個分類器擴展到使用Apache Spark的大數據叢集系統上。

    讀完本書後,你將能活用各種Python中的資料探勘和資料分析技術,找出資料中的價值,並開發出優質的預測模型,讓你能預測未來的結果。另外,你還能靈活運用Apache Spark,針對大數據執行大規模機器學習。認識資料科學工作並非難事,從分析資料前的資料準備工作、訓練機器學習模型,到最終的資料分析結果視覺化……你都將一次精通!


    在這本書中,你將學到:
    • 清理和準備資料,讓資料能用於分析
    • 用Python實作熱門的集群和迴歸方法
    • 利用決策樹和隨機森林訓練高效率的機器學習模型
    • 使用Python Matplotlib程式庫對分析結果進行視覺化
    • 使用Apache Spark的MLlib在大型資料集上進行機器學習


    適用讀者:
    • 剛入行的新手資料科學家
    • 想用Python對資料進行分析、獲得實用資訊的資料分析師
    • 有Python程式設計經驗、想進入資料科學領域的程式設計師

    讀者可以到博碩文化官網輸入書號或書名,下載「練習題參考解答」。

    【下載範例程式檔案】
    本書的程式碼是由GitHub託管,可點選下面圖案前往下載:




    【下載本書的彩色圖片】
    提供您一個包含本書使用的彩色圖表的PDF檔案,可以在此下載:
 
    前言

    Chapter 1:Python入門
    1.1 安裝Enthought Canopy
    1.2 使用並學習Jupyter Notebook
    1.3 Python基礎:第一部分
    1.4 認識Python程式碼
    1.5 導入模組
    1.6 Python基礎:第二部分
    1.7 執行Python腳本
    1.8 總結

    Chapter 2:統計與機率快速複習以及Python程式碼實現
    2.1 資料類型
    2.2 平均數、中位數和眾數
    2.3 在Python中計算平均數、中位數和眾數
    2.4 標準差和變異數
    2.5 機率密度函數和機率質量函數
    2.6 資料分佈類型
    2.7 百分位數和動差
    2.8 總結

    Chapter 3:Matplotlib與高等機率概念
    3.1 Matplotlib快速入門
    3.2 共變異數與相關性 099
    3.3 條件機率 107
    3.4 貝氏定理 114
    3.5 總結

    Chapter 4:預測模型
    4.1 線性迴歸
    4.2 多項式迴歸
    4.3 多元迴歸和預測汽車售價實作
    4.4 多層次模型
    4.5 總結

    Chapter 5:利用Python進行機器學習
    5.1 機器學習及訓練/測試法
    5.2 用訓練/測試法防止多項式迴歸中的過度擬合
    5.3 貝氏方法及概念
    5.4 使用單純貝氏實現垃圾郵件分類器
    5.5 K-Means集群
    5.6 利用收入與年齡進行人口集群
    5.7 熵的測量
    5.8 決策樹概念
    5.9 使用Python產生錄用決策樹
    5.10 整合學習
    5.11 支援向量機概述
    5.12 在scikit-learn中利用SVM對人進行集群
    5.13 總結

    Chapter 6:推薦系統
    6.1 什麼是推薦系統
    6.2 以項目為基礎的協同過濾
    6.3 以項目為基礎的協同過濾是如何運作的
    6.4 找出電影相似度
    6.5 改善電影相似度結果
    6.6 向使用者推薦電影
    6.7 改善推薦結果
    6.8 總結

    Chapter 7:更多資料探勘和機器學習技術
    7.1 KNN
    7.2 使用KNN預測電影評分
    7.3 資料降維與主成分分析
    7.4 對鳶尾花資料集使用PCA
    7.5 資料倉儲概述
    7.6 強化學習
    7.7 總結

    Chapter 8:處理真實世界資料
    8.1 偏差-變異數的權衡
    8.2 使用K折交叉驗證來避免過度擬合
    8.3 資料清理和正規化
    8.4 清理網站日誌資料
    8.5 數值型資料的正規化
    8.6 檢測離群值
    8.7 總結

    Chapter 9:Apache Spark——大數據上的機器學習
    9.1 安裝Spark
    9.2 認識Spark
    9.3 Spark和彈性分散式資料集(RDD)
    9.4 MLlib簡介
    9.5 在Spark中使用MLlib實作決策樹
    9.6 在Spark中實現K-Means集群
    9.7 TF-IDF
    9.8 使用Spark MLlib搜尋維基百科
    9.9 使用Spark 2.0中的MLlib資料框API
    9.10 總結

    Chapter 10:測試與實驗設計
    10.1 A/B測試的概念
    10.2 t檢定與p值
    10.3 使用Python計算t統計量和p值
    10.4 確定實驗持續時間
    10.5 A/B測試中的陷阱
    10.6 總結
 
    Frank Kane

    在Amazon和IMDb等知名企業工作了九年,期間內處理了數百萬個客戶評分及客戶交易,製作個人化電影和產品推薦系統,和「購買這個商品的人也買了」服務。目前在分散式運算、資料探勘和機器學習等領域已擁有17項授權專利。

    Frank Kane於2012年離開了前公司,自行成功創立了一家公司,名為Sundog Software,公司主要負責VR環境科技、傳授大數據分析課程。
 
 
 
     

博碩文化客服信箱
 

[email protected]

 
文教業務團隊
台北、新北、桃園、基隆、宜蘭、花蓮、金門
汪 玉 鳳
LINE ID:0925177716
0925-177716
[email protected]
郭 南 彤
LINE ID:rgtech101
0917-727778
[email protected]
助理分機 519
新竹、苗栗、台中、彰化、南投、雲林
林 世 昌
LINE ID:0925275775
0925-275775
[email protected]
助理分機 519
嘉義、台南、高雄、屏東、台東、澎湖
林 月 玲
LINE ID:0926858627
0926-858627
[email protected]
助理分機 238
 
MOCC 認證小組
 
  林 雯 玲 電話:02-2696-2869 分機:623 [email protected]

 

 
 

 

博碩文化股份有限公司 DrMaster Press Co., Ltd.
台灣新北市汐止區新台五路一段112號10樓A棟
Building A, 10F, No.112, Xintai 5th Rd., Sec.1,Xizhi Dist., New Taipei City 221, Taiwan
Tel:02-2696-2869 Fax:02-2696-2867 劃撥帳號:17484299

Copyright© DrMaster Press Co., Ltd. All Rights Reserved.