回首頁  
帳號
 
關於博碩 博碩好讀 校園圖書 MOCC認證 下載教學 元學堂

博碩好讀
  新書推薦
  出版預告
  名家名著
  iT達人祕笈
 

分類索引

 

出版總覽

 

讀者服務

  徵求作者
 
首頁 >> 書籍介紹
 
 
點我可放大圖片
 
書名:NLP工程師養成術:自然語言處理入門
書號:MP12021 作者:何晗 ISBN: 978-986-434-501-4
定價:NT$690元 印刷:單色 頁數:464頁
書籍規格:17*23 上市日:2020/7/4 譯者:廖信彥 審校
學習定位:無 本書附件:官網下載(範例程式碼)   快速前往 範例
前往購買 >> 蝦皮購物 類別:電腦技術  
       
快速前往 快速前往        

 

 
    不會艱深晦澀、不再高深莫測
    你一定能看懂的自然語言處理入門書!

    INTRODUCTION TO NATURAL LANGUAGE PROCESSING

    *Java與Python雙實作:圖文並茂!演算法、數學公式、程式碼相輔相成。
    *探索式學習路徑:循序漸進!從問題、演算法再到範例實作,一目瞭然。

    編輯推薦
    作者匯集多年經驗,從基本概念出發,逐步介紹中文分詞、詞性標註、命名實體識別、資訊抽取、文字聚類、文字分類、句法分析這幾個熱門問題的演算法原理與工程實作。透過講解多種演算法,比較它們的優缺點與適用場景,同時詳細展示實際專案導向的程式碼,協助讀者真正將自然語言處理(NLP)應用到正式環境之中。

    儘管作者目前是NLP領域的翹楚,但他曾是非本科生,對自學入門有親身體驗,深諳初學者的學習痛點。希望透過這本與眾不同的入門讀物,為讀者打開另一扇機會之門,幫助你零起點上手NLP,讓你在通勤時也能把書讀完讀懂!

    隨著本書的學習,你將從普通程式設計師晉級為機器學習工程師,最後進化為NLP工程師。


    專家好評
    HanLP作者何晗寫的這本書值得一讀。這本書系統性地介紹NLP的基礎技術,深入淺出、容易理解,對初學者助益極大。
    周明
    微軟亞洲研究院副院長,國際計算語言學會會長

    本書不僅介紹NLP的任務及演算法,也提供可以實際執行的線上程式碼,非常適合NLP初學者入門並快速部署到正式環境。
    王斌
    小米人工智慧實驗室主任、NLP首席科學家
 
    推薦語
    前言
    主要數學符號表

    第1章:新手上路
    1.1 自然語言與程式語言
    1.2 自然語言處理的層次
    1.3 自然語言處理的流派
    1.4 機器學習
    1.5 語料庫
    1.6 開源工具
    1.7 總結

    第2章:詞典分詞
    2.1 什麼是詞
    2.2 詞典
    2.3 切分演算法
    2.4 字典樹
    2.5 雙陣列字典樹
    2.6 AC 自動機
    2.7 基於雙陣列字典樹的AC自動機
    2.8 HanLP的詞典分詞實作
    2.9 準確率評測
    2.10 字典樹的其他應用
    2.11 總結

    第3章:二元語法與中文分詞
    3.1 語言模型
    3.2 中文分詞語料庫
    3.3 訓練
    3.4 預測
    3.5 評測
    3.6 日語分詞
    3.7 總結

    第4章:隱馬可夫模型與序列標註
    4.1 序列標註問題
    4.2 隱馬可夫模型
    4.3 隱馬可夫模型的樣本生成
    4.4 隱馬可夫模型的訓練
    4.5 隱馬可夫模型的預測
    4.6 隱馬可夫模型應用於中文分詞
    4.7 二階隱馬可夫模型 *
    4.8 總結

    第5章:感知器分類與序列標註
    5.1 分類問題
    5.2 線性分類模型與感知器演算法
    5.3 基於感知器的人名性別分類
    5.4 結構化預測問題
    5.5 線性模型的結構化感知器演算法
    5.6 基於結構化感知器的中文分詞
    5.7 總結

    第6章:條件隨機域與序列標註
    6.1 機器學習的模型譜系
    6.2 條件隨機域
    6.3 條件隨機域工具包
    6.4 HanLP的CRF++ API
    6.5 總結

    第7章:詞性標註
    7.1 詞性標註概述
    7.2 詞性標註語料庫與標註集
    7.3 序列標註模型應用於詞性標註
    7.4 自訂詞性
    7.5 總結

    第8章:命名實體識別
    8.1 概述
    8.2 基於規則的命名實體識別
    8.3 命名實體識別語料庫
    8.4 基於層疊隱馬可夫模型的角色標註框架
    8.5 基於序列標註的命名實體識別
    8.6 自訂領域命名實體識別
    8.7 總結

    第9章:資訊抽取
    9.1 新詞提取
    9.2 關鍵字提取
    9.3 短語提取
    9.4 關鍵句提取
    9.5 總結

    第10章:文字聚類
    10.1 概述
    10.2 文件的特徵提取
    10.3 k 平均值演算法
    10.4 重複二分聚類演算法
    10.5 標準化評測
    10.6 總結

    第11章:文字分類
    11.1 文字分類的概念
    11.2 文字分類語料庫
    11.3 文字分類的特徵提取
    11.4 單純貝氏分類器
    11.5 支援向量機分類器
    11.6 標準化評測
    11.7 情感分析
    11.8 總結

    第12章:依存句法分析
    12.1 短語結構樹
    12.2 依存句法樹
    12.3 依存句法分析
    12.4 基於轉移的依存句法分析
    12.5 依存句法分析API
    12.6 案例:基於依存句法樹的意見抽取
    12.7 總結

    第13章:深度學習與自然語言處理
    13.1 傳統方法的局限
    13.2 深度學習與優勢
    13.3 word2vec
    13.4 基於神經網路的高效能依存句法分析器
    13.5 自然語言處理進階

    自然語言處理學習資料推薦
    書籍與雜誌
    學術會議
    公開課程
    網站
 
    何晗(@hankcs)
    自然語言處理專案HanLP的作者(GitHub Star數量超過14,600),「碼農場」版主(日活躍讀者數超過3,000),埃默里大學計算機博士生,研究方向是句法分析、語義分析與問答系統。

    HanLP和「碼農場」是NLP領域實用的學習資源,何晗大約每週處理一次HanLP GitHub上的Issues。
 

範例下載
 
  1. 思維圖 (3.21MB)
  2. 範例 (123KB)
 
 
     

博碩文化客服信箱
 

[email protected]

 
文教業務團隊
台北、新北、桃園、基隆、宜蘭、花蓮、金門
汪 玉 鳳
LINE ID:0925177716
0925-177716
[email protected]
郭 南 彤
LINE ID:rgtech101
0917-727778
[email protected]
助理分機 519
新竹、苗栗、台中、彰化、南投、雲林
林 世 昌
LINE ID:0925275775
0925-275775
[email protected]
助理分機 519
嘉義、台南、高雄、屏東、台東、澎湖
林 月 玲
LINE ID:0926858627
0926-858627
[email protected]
助理分機 238
 
MOCC 認證小組
 
  林 雯 玲 電話:02-2696-2869 分機:623 [email protected]

 

 
 

 

博碩文化股份有限公司 DrMaster Press Co., Ltd.
台灣新北市汐止區新台五路一段112號10樓A棟
Building A, 10F, No.112, Xintai 5th Rd., Sec.1,Xizhi Dist., New Taipei City 221, Taiwan
Tel:02-2696-2869 Fax:02-2696-2867 劃撥帳號:17484299

Copyright© DrMaster Press Co., Ltd. All Rights Reserved.