python自然語言處理基礎知識入門 - 全文

　　自然語言處理

　　自然語言處理廣納了眾多技術，對自然或人類語言進行自動生成，處理與分析。雖然大部分 NLP 技術繼承自語言學和人工智能，但同樣受到諸如機器學習，計算統計學和認知科學這些相對新興的學科影響。

　　在展示 NLP 技術的例子前，有必要介紹些非常基礎的術語。請注意：為了讓文章通俗易懂，這些定義在語言上就不一定考究。

　　詞例（Token）：對輸入文本做任何實際處理前，都需要將其分割成諸如詞、標點符號、數字或純字母數字（alphanumerics）等語言單元（linguistic units）。這些單元被稱為詞例。

　　句子：由有序的詞例序列組成。

　　詞例還原（Tokenization）：將句子還原成所組成的詞例。以分割型語言（segmented languages）英語為例，空格的存在使詞例還原變得相對容易同時也索然無味。然而，對于漢語和阿拉伯語，因為沒有清晰的邊界，這項工作就稍顯困難。另外，在某些非分割型語言（non-segmented languages）中，幾乎所有的字符（characters）都能以單字（one-character）存在，但同樣也可以組合在一起形成多字（multi-characterwords）形式。

　　語料庫：通常是由豐富句子組成的海量文本。

　　詞性標簽（Part-of-speech （POS） Tag）：任一單詞都能被歸入到至少一類詞匯集（set of lexical）或詞性條目（part-of-speech categories）中，例如：名詞、動詞、形容詞和冠詞等。詞性標簽用符號來代表一種詞匯條目——NN（名詞）、VB（動詞）、JJ（形容詞）和 AT（冠詞）。Brown Corpus 是最悠久，也是最常用的標注集之一。詳情且聽下回分解。

　　剖析樹（Parse Tree）：利用形式語法（formal grammar）的定義，可以用樹狀圖來表示給定句子的句法（syntactic）結構。

　　認識了基本的術語，下面讓我們了解 NLP 常見的任務：

　　詞性標注（POS Tagging）：給定一個句子和組詞性標簽，常見的語言處理就是對句子中的每個詞進行標注。舉個例子，The ball is red，詞性標注后將變成 The/AT ball/NN is/VB red/JJ。最先進的詞性標注器［9］準確率高達 96%。文本的詞性標注對于更復雜的 NLP 問題，例如我們后面會討論到的句法分析（parsing）和機器翻譯（machine translation）非常必要。

　　計算形態學（Computational Morphology）：大量建立在“語素”（morphemes/stems）基礎上的詞組成了自然語言，語素雖然是最小的語言單元，卻富含意義。計算形態學所關心的是用計算機發掘和分析詞的內部結構。

　　句法分析（Parsing）：在語法分析的問題中，句法分析器（parser）將給定句子構造成剖析樹。為了分析語法，某些分析器假定一系列語法規則存在，但目前的解析器已經足夠機智地借助復雜的統計模型［1］直接推斷分析樹。多數分析器能夠在監督式設置（supervised setting）下操作并且句子已經被詞性標注過了。統計句法分析是自然語言處理中非常活躍的研究領域。

　　機器翻譯（Machine Translation（MT））：機器翻譯的目的是讓計算機在沒有人工干預的情況下，將給定某種語言的文本流暢地翻譯成另一種語言文本。這是自然語言處理中最艱巨的任務之一，這些年來已經用許多不同的方式解決。幾乎所有的機器翻譯方法都依賴了詞性標注和句法分析作為預處理。

　　Python

　　Python 是一種動態類型（dynamically-typed），面向對象的解釋式（interpreted）編程語言。雖然它的主要優勢在于允許編程人員快速開發項目，但是大量的標準庫使它依然能適應大規模產品級工程項目。Python 的學習曲線非常陡峭并且有許多優秀的在線學習資源［

　　NLTK自然語言處理工具包

　　NLTK簡介

　　NLTK是構建Python程序與人類語言數據工作的主要平臺。它提供了易于使用的界面，以超過50語料庫和詞匯資源，如WordNet的，連同一套文字處理庫進行分類，標記化，詞干，標記，分析和語義推理，和活躍的論壇。

　　得益于動手指南介紹編程基礎在旁邊計算語言學課題，NLTK適合語言學家，工程師，學生，教育工作者，研究人員和行業用戶的一致好評。 NLTK可用于Windows，Mac OS X和Linux。最重要的是，NLTK是一個免費，開源，社區驅動的項目。

　　使用 NLTK

　　NLTK 官網提供了很棒的說明文件和教程進行學習指導［13］。單純復述那些作者們的文字對于他們和本文都不公平。因此我會通過處理四個難度系數依次上升的 NLP 任務來介紹 NLTK。這些任務都來自于 NLTK 教程中沒有給出答案的練習或者變化過。所以每個任務的解決辦法和分析都是本文原創的。

　　NLTK 語料庫

　　正如前文所說，NLTK 囊括數個在 NLP 研究圈里廣泛使用的實用語料庫。在本節中，我們來看看三個下文會用到的語料庫：

　　布朗語料庫（Brown Corpus）：Brown Corpus of Standard American English 被認為是第一個可以在計算語言學處理［6］中使用的通用英語語料庫。它包含了一百萬字 1961 年出版的美語文本。它代表了通用英語的樣本，采樣自小說，新聞和宗教文本。隨后，在大量的人工標注后，誕生了詞性標注過的版本。

　　古登堡語料庫（Gutenberg Corpus）：古登堡語料庫從最大的在線免費電子書［5］平臺古登堡計劃（Gutenberg Project）中選擇了 14 個文本，整個語料庫包含了一百七十萬字。

　　Stopwords Corpus：除了常規的文本文字，另一類諸如介詞，補語，限定詞等含有重要的語法功能，自身卻沒有什么含義的詞被稱為停用詞（stop words）。NLTK 所收集的停用詞語料庫（Stopwords Corpus）包含了來自 11 種不同語言（包括英語）的 2400 個停用詞。

　　NLTK 命名約定

　　在開始利用 NLTK 處理我們的任務以前，我們先來熟悉一下它的命名約定（naming conventions）。最頂層的包（package）是 nltk，我們通過使用完全限定（fully qualified）的加點名稱例如：nltk.corpus and nltk.utilities 來引用它的內置模塊。任何模塊都能利用 Python 的標準結構 from 。。。 import 。。。來導入頂層的命名空間。

　　windows下NLTK環境搭建

　　python安裝

　　選擇 2.7x版本進行下載，不建議下載3.X版本，因為現在很多python代碼庫還是基于舊的版本編寫的，所以不建議使用3.X版本。安裝完成后，使用打開自帶的IDLE，結果如下：

　　Note：

　　推薦編寫python代碼好用的IDE：pycharm，上手比較簡單，文檔較齊全

　　下載地址：http://www.jetbrains.com/pycharm/

　　附幾個PyCharm4注冊碼：

　　name ：newasp

　　=====LICENSE BEGIN =====

　　09086-12042010

　　00001EBwqd8wkmP2FM34Z05iXch1Ak

　　KI0bAod8jkIffywp2WalWZejIQ6AAu

　　AVVPbzHZpOvqvdJFHEBbvbXW2t1jQI

　　=====LICENSE END =====

　　name ：newasp

　　=====LICENSE BEGIN =====

　　58877-12042010

　　00002h9ii68IdWfbdJz2UraWcsVxFY

　　！w1WD9cwRDMoW2pOUeC0WBqLAMo5PX

　　lQ7cE8qMukEYuWY6！EnjYWn！2EDTio

　　=====LICENSE END =====

　　name ：newasp

　　=====LICENSE BEGIN =====

　　46753-12042010

　　000013xjAPHl95oQRCb“KnLsrXfWYa

　　L3aYClCOtBVysdtzBBPU5XCB3QUjLC

　　T1yMRB7YNC0d15A2cbwXTwXCwCjJEP

　　=====LICENSE END =====

　　name ：newasp

　　=====LICENSE BEGIN =====

　　62458-12042010

　　00002r53OfrSCVqjsI0zdG5E4pMM5Z

　　dBAGbxVOX！OPwIkBqunfKf2zQDgECf

　　XrLosbjBEp！2JfFuydkblmqWPevvB0

　　===== LICENSE END =====

　　NLTK 安裝

　　下載NLTK及安裝

　　官方網站：http://www.nltk.org/ 下載網址：https://pypi.python.org/pypi/nltk

　　由于是在windows環境下安裝nltk，選擇：

　　下載完成后，正常安裝，在python安裝目錄下的能找到相應的NLTK庫，作者機器路徑如下：

　　C：Python27Libsite-packages ltk

　　測試

　　安裝完成后，進行測試：

　　下載NLTK數據源

　　輸入import nltk如果沒有出現異常，則表明nltk已經安裝正確，但還需要下載相應的訓練數據源，使用nltk.download（）進行下載：

　　得到結果如圖：

　　選擇all，等待下載結束即可。

　　Note：

　　可能出現的問題：ImportError:No module named yaml

　　該問題是由于沒有安裝pyyaml，下載地址：http://pyyaml.org/download/pyyaml/PyYAML-3.10.win32-py2.7.exe

　　下載安裝即可。

　　NLTK自帶方法進行自然語言處理

　　NLTK進行分句

　　函數：

　　sent_tokenize（text，language=‘english’）

　　參數：

　　text ：將要被分割的語句文本

　　language：Punkt分句程序指定模型名字，可忽略

　　返回值：

　　list類型：使用NTLK推薦分句程序得到的結果

　　示例：

　　NLTK進行分詞

　　函數：

　　word_tokenize（text，language=‘english’）

　　參數：

　　text：將要進行分詞的句子文本

　　language：Punkt分詞程序指定模型名字，可忽略

　　返回值：

　　list類型，使用NTLK推薦分詞程序得到的結果

　　示例：

　　NLTK詞性標注

　　詞性標注的結果含義可參照作者的另一篇博文：（自然語言處理文檔系列）Penn Treebank詞性標記集

　　函數：

　　pos_tag（tokens，tagset=None）

　　參數：

　　tokens：list（str）類型，將要被標注單詞的序列

　　tagset：可忽略

　　返回值：

　　list（tuple（str，str）），進行詞性標注后的結果

　　示例：

　　NLTK命名實體識別（NER）

　　函數：

　　ne_chunk（tagged_tokens，binary=False）

　　使用推薦的NER工具包進行處理，處理之前需要利用詞性標注的結果

　　參數：

　　tagged_tokens：list（tuple（str，str）），NLTK進行詞性標注的結果

　　binary：

　　返回值：

　　示例：

　　句法分析

　　nltk沒有好的parser，推薦使用stanfordparser，但是nltk有很好的樹類，該類用list實現。可以利用stanfordparser的輸出構建一棵python的句法樹。關于stanfordparser在第3章中有詳細介紹。

　　自然語言處理是非常熱門的研究領域因此每年吸引了非常多研究生。它集合了多個學科諸如語言學，心理學，計算科學和數學的優勢來研究人類語言。另外選擇 NLP 作為研究生生涯更重要的原因是大量有意思的難題都沒有固定的解決辦法。舉個例子，機器翻譯初始問題（original problem）的存在推動了該領域的發展，即使經過二十年誘人而又活躍的研究以后，這個難題依舊尚待解決。還有另外幾個前沿的 NLP 問題目前已經有大量的研究工作，其中一些列舉如下：

　　基于句法的機器翻譯：從過去的數十年到現在，絕大部分的機器翻譯都聚焦在使用統計方法通過大量語料庫來學習詞和短語的翻譯。然而，越來越多的研究者開始在研究中加入句法［10］。

　　多文本摘要：目前大量工作都是利用計算機從相近的文檔集合［8］中自動生成高度相關的摘要。這個任務被視為比單文本的摘要困難，因為多文本中冗余信息更多。

　　計算句法分析：雖然使用概率模型自動生成給定文本的句法結構由來已久，但進步空間還很大。最大的挑戰是準確的分析，當英語拿來和中文［7］、阿拉伯語比較的時候，語言特性差異很大。

　　Python 和 NLTK 使每個編程人員不需要花費大量時間在獲取資源上，直接可以接觸 NLP 任務。文本意在給任何對學習 NLP 感興趣的人提供解決這些簡單的任務例子和參考。

閱讀全文

上一頁 1 2 3全文

本文導航

python(83366) python(83366)
自然語言處理(13090) 自然語言處理(13090)

如何開始使用PyTorch進行自然語言處理

隨著人工智能和深度學習程序在未來幾年的蓬勃發展，自然語言處理（NLP）將日益普及，而且必要性也與日俱增。PyTorch 自然語言處理是實現這些程序的不錯選擇。

2022-07-07 10:01:31

2138

C語言基礎知識科普

C語言是單片機開發中的必備基礎知識，本文列舉了部分STM32學習中比較常見的一些C語言基礎知識。

2022-07-21 10:58:28

1665

自然語言處理包括哪些內容自然語言處理技術包括哪些

自然語言處理(Natural Language Processing, NLP)一般包括以下內容：語音識別(Speech Recognition)：將人類語言轉換為計算機可以理解的形式。語音合成

2023-08-03 16:22:33

3402

2023年科技圈熱詞“大語言模型”，與自然語言處理有何關系

電子發燒友網報道（文/李彎彎）大語言模型（LLM）是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本，還能夠深入理解文本含義，處理各種自然語言任務，如文本摘要、問答、翻譯

2024-01-02 09:28:33

1267

Python自然語言處理學習筆記：建立基于特征的文法

《Python自然語言處理（第二版）-Steven Bird等》學習筆記：第09章建立基于特征的文法

2020-04-26 12:38:11

Python中調用自然語言處理工具HanLP手記

('com.hankcs.hanlp.tokenizer.NLPTokenizer')22.print(NLPTokenizer.segment('中國科學院計算技術研究所的宗成慶教授正在教授自然語言處理

2018-10-31 11:05:07

python自然語言

最近，python自然語言是越來越火了，那么什么是自然語言。自然語言（Natural Language ）廣納了眾多技術，對自然或人類語言進行自動生成，處理與分析。雖然大部分 NLP 技術繼承自語言

2018-05-02 13:50:17

自然語言處理——總結、習題

自然語言處理——79 總結、習題

2020-06-19 11:22:23

自然語言處理之66參數學習

自然語言處理——66參數學習

2020-07-16 09:43:33

自然語言處理怎么最快入門？

的基礎都是自然語言處理的范疇之內。二、自然語言處理怎么學？自然語言處理的實際入門步驟來說，假如單單從應用來說，我覺得還是直接先從簡單的應用搞起更好一點，上來就是理論的話可能對一些人還是比較枯燥，我認為

2018-11-28 10:02:37

自然語言處理技術介紹

專業知識。本文主要介紹自然語言處理領域的一些常用技術。受限于本人在數據處理領域的實踐經驗，在示例的選擇上，主要以個人的研發項目為主，包括自動應答系統、信息檢索系統等。1.1.術語l詞詞是自然語言

2018-09-27 09:57:14

自然語言處理的語言模型

自然語言處理——53 語言模型（數據平滑）

2020-04-16 11:11:25

自然語言處理的分詞方法

自然語言處理——75 自動分詞基本算法

2020-03-19 11:46:48

自然語言處理的功能合一文法

自然語言處理——82 功能合一文法(Function Unification Grammar, FUG)

2020-03-25 11:19:20

自然語言處理的未登錄詞識別

自然語言處理——76 未登錄詞識別

2019-10-23 17:00:22

自然語言處理的詞性標注方法

自然語言處理——78 詞性標注方法

2020-04-21 11:38:38

NLPIR語義分析是對自然語言處理的完美理解

和邏輯表示。語義分析就是對信息所包含的語義的識別，并建立一種計算模型，使其能夠像人那樣理解自然語言。語義分析是自然語言理解的根本問題，它在自然語言處理、信息檢索、信息過濾、信息分類、語義挖掘等領域有著廣泛

2018-10-19 11:34:47

PLC入門必看基礎知識

PLC基礎知識(PLC入門必看)與C語言有什么關系_plc可以用c語言編程嗎_plc的C語言編程詳解

2021-09-09 08:39:12

hanlp漢語自然語言處理入門基礎知識介紹

`自然語言處理定義：自然語言處理是一門計算機科學、人工智能以及語言學的交叉學科。雖然語言只是人工智能的一部分（人工智能還包括計算機視覺等），但它是非常獨特的一部分。這個星球上有許多生物擁有超過

2019-01-02 14:43:15

【推薦體驗】騰訊云自然語言處理

`相信大家對NLP自然語言處理的技術都不陌生，它是計算機科學領域和AI領域中的一個分支，它與計算機和人類之間使用自然語言進行交互密切相關，而NLP的最終目標是使計算機能夠像人類一樣理解語言。目前

2019-10-09 15:28:44

中文自然語言處理之商品評論情感判別

中文自然語言處理——商品評論情感判別

2020-05-27 12:50:35

什么是自然語言處理

什么是自然語言處理？自然語言處理任務有哪些？自然語言處理的方法是什么？

2021-09-08 06:51:28

什么是自然語言處理？

會識別出我們正確說的話。我們使用免費服務將在線遇到的外語短語翻譯成英語，有時它們可以為我們提供準確的翻譯。盡管自然語言處理取得了長足的進步，但仍有很大的改進空間。[理...

2021-07-23 10:22:52

什么是人工智能、機器學習、深度學習和自然語言處理？

和數學是人類的兩大主要成就，使其優于其他生物。語言使人類能夠交流、傳遞和儲存主觀知識，而數學則使人類能夠交流和儲存定量知識。自然語言處理和文本分析涉及解析自然人類語言、識別知識和語義表示、自然語言處理

2022-03-22 11:19:16

關于自然語言處理之54 語言模型(自適應)

自然語言處理——54 語言模型(自適應)

2020-04-09 08:20:30

求自然語言處理筆記

自然語言處理筆記9-哈工大關毅

2020-06-04 16:34:18

目前常用的自然語言處理開源項目/開發包大匯總

：～1k Star 結巴分詞：Python中文分詞組件開發語言：Python網址：fxsjy/jieba開發機構：協議：MIT授權協議功能：中文分詞FNLP：FNLP主要是為中文自然語言處理而開發

2018-11-26 10:31:45

語義理解和研究資源是自然語言處理的兩大難題

兩方面，語義理解和資源問題。語義理解包括對自然語言知識和常識的學習，如果只是要學習機器的知識，對于人類來說并不難，但是如果讓機器掌握人的思考模式和處理方法模式，其模式構建和具體實施則存在困難，也就是說

2019-09-19 14:10:38

空間信息自然語言查詢接口的研究與應用

摘要：提出了空間信息自然語言查詢接口，并討論了基于語義詞典的建立、中文分詞、查詢文法規則及其應用領域等主要問題。關鍵詞：自然語言；空間信息；空間查詢

2009-01-09 12:00:55

基于自然語言處理的知識檢索算法研究

基于自然語言處理的知識檢索算法研究_賈潤亮

2017-01-07 21:39:44

從語言學到深度學習NLP，一文概述自然語言處理

本文從兩篇論文出發先簡要介紹了自然語言處理的基本分類和基本概念，再向讀者展示了深度學習中的 NLP。這兩篇論文都是很好的綜述性入門論文，希望詳細了解自然語言處理的讀者可以進一步閱讀這兩篇論文。

2017-08-22 14:56:36

6051

python基礎教程實例之python基礎入門100例程序分享

包含了100個python入門的小例子，包括了基礎語法，數據結構，控制流，類繼承等基礎知識的訓練和，很適合入門的同學鞏固基礎知識。

2017-09-08 17:17:41

組合參考物框架下空間關系自然語言描述方法

針對復雜場景空間關系自然語言描述存在的問題，提出了一種組合參考物框架下空間關系自然語言描述方法。層級參照物的選取方法被用于確定組合參考框架，三維可視域被用于實現三維空間關系的描述，云模型被用于實現

2017-11-09 17:36:43

RNN在自然語言處理中的應用

。深度學習的興起又讓人們重新開始研究循環神經網絡（Recurrent Neural Network），并在序列問題和自然語言處理等領域取得很大的成功。本文將從循環神經網絡的基本結構出發，介紹RNN在自然語言處理中的應用及其PyTorch 實現。

2017-11-28 11:41:58

5495

基于Hadoop集群的自然語言處理平臺實現

隨著互聯網技術的迅猛發展，數據的智能化處理獲取越來越重要。在自然語言處理領域，大規模語料庫技術和其他基于概率統計的研究方法蓬勃發展，為自然語言的研究提供了新的思路和工具。各種新模型、新技術、新應用層

2017-11-28 16:28:24

深度視頻自然語言描述方法

針對計算機對視頻進行自動標注和描述準確率不高的問題，提出一種基于多特征融合的深度視頻自然語言描述的方法。該方法提取視頻幀序列的空間特征、運動特征、視頻特征，進行特征的融合，使用融合的特征訓練基于長短

2017-12-04 14:07:08

自然語言處理常用模型解析

自然語言處理常用模型使用方法一、N元模型二、馬爾可夫模型以及隱馬爾可夫模型及目前常用的自然語言處理開源項目/開發包有哪些？

2017-12-28 15:42:30

5382

什么是自然語言處理_自然語言處理常用方法舉例說明

自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。

2017-12-28 16:56:28

18017

自然語言處理怎么最快入門_自然語言處理知識了解

自然語言處理就是實現人機間自然語言通信，實現自然語言理解和自然語言生成是十分困難的，造成困難的根本原因是自然語言文本和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性。用自然語言與計算機進行通信，這是人們長期以來所追求的。因為它既有明顯的實際意義，同時也有重要的理論意義。

2017-12-28 17:10:09

5073

淺談自然語言處理技術的應用領域

以下七種自然語言處理的常見應用：1. 文本分類2. 語言建模3. 語音識別4. 說明生成5. 機器翻譯6.文檔總結7. 問題回答

2017-12-28 17:37:55

25347

自然語言處理的技術難點與挑戰_發展現狀分析

人工智能已經是大部分普通人都耳熟能詳的詞匯，而人們對自然語言處理技術的了解程度卻大部分還停留在表面階段。本文通過回顧自然語言處理的發展歷史，解讀2015年整個自然語言處理行業的重大變化，進而提出新的時代下自然語言處理技術的發展難點、以及對于自然語言處理所提出的挑戰、自然語言處理未來的發展方向。

2017-12-29 09:25:21

38573

國內有哪些自然語言處理的牛人或團隊以及公司

借助移動互聯網技術、機器學習領域深度學習技術的發展，以及大數據語料的積累，自然語言處理技術發生了突飛猛進的變化。越來越多的科技巨頭開始看到了這塊潛在的“大蛋糕”中蘊藏的價值，通過招兵買馬、合作、并購

2017-12-29 09:34:29

22167

自然語言處理的優點有哪些_自然語言處理的5大優勢

在自然語言處理領域，深度學習的承諾是：給新模型帶來更好的性能，這些新模型可能需要更多數據，但不再需要那么多的語言學專業知識。

2017-12-29 13:52:39

27280

閑談深度學習在自然語言處理領域的5大關鍵優勢

在自然語言處理領域，深度學習將給予最大的幫助，深度學習方法主要依靠一下這五個關鍵優勢，閱讀本文將進一步了解自然語言處理的重要深度學習方法和應用。

2018-01-12 16:00:54

4122

Python自然語言用金庸的武俠小說做分析和處理

作者用Jieba + Word2vec + NetworkX 結合在一起，做了一次自然語言分析，語料是金庸的武俠小說《倚天屠龍記》

2018-03-23 16:01:31

7878

翻譯機器人可“領會”使用意圖河南首個自然語言處理實驗室發布新成果

還記得歷史上首個獲得公民身份的人工智能機器人Sophia么？驚人的口才和語言自主學習能力讓全世界所折服，儼然成為人工智能領域中的網紅。當然，伴隨著Sophia的走紅，自然語言處理這一人工智能領域

2018-07-04 10:11:00

1105

關于通過自然語言處理輔助完成匯總醫學領域知識的過程詳解

近年來醫療數據挖掘發展迅速，然而目前醫療數據結構化處于起步階段，更多的醫療數據仍然以自然語言文本形式出現。自然人的學習能力有限，因此學者們嘗試通過自然語言處理（Natural Language

2018-07-02 15:14:00

3925

自然語言處理方法和應用

2018CCAI大會邀請到國內NLP領域頂尖學者，蘇州大學特聘教授，計算機學院副院長，人類語言技術研究所所長、國家杰出青年科學基金獲得者的張民教授將以《自然語言處理方法和應用》為題做專題講座。

2018-06-25 15:44:48

5204

人工智能時代下，NLP技術賦予了機器自然語言識別能力

語言是人類特有的技能，是人類智慧的體現。在人工智能時代，自然語言處理（NLP）技術為機器賦予了這樣的語言功能，讓機器有了自然語言識別能力，為用戶體驗開辟了新路徑。

2018-08-07 16:27:00

1422

人工智能開啟自然語言處理新時代

2018-08-09 11:19:22

3892

淺析自然語言處理知識體系結構

自然語言處理知識太龐大了，網上也都是一些零零散散的知識，比如單獨講某些模型，也沒有來龍去脈，學習起來較為困難，于是總結了一份知識體系結構。

2018-08-18 09:57:43

4637

如何成為一名自然語言處理工程師

自然語言處理和大部分的機器學習或者人工智能領域的技術一樣，是一個涉及到多個技能、技術和領域的綜合體。所以自然語言處理工程師會有各種各樣的背景，大部分都是在工作中自學或者是跟著項目一起學習的，這其中

2018-08-27 09:43:01

2846

自然語言處理（NLP）知識結構總結

自然語言處理知識太龐大了，網上也都是一些零零散散的知識，比如單獨講某些模型，也沒有來龍去脈，學習起來較為困難，于是我自己總結了一份知識體系結構，不足之處，歡迎指正。內容來源主要參考黃志洪老師

2018-08-29 09:58:53

4388

深入機器學習之自然語言處理

由龍騎士于星期二, 2018-09-18 15:13 發表 自然語言處理（NLP）是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論

2018-09-18 22:31:01

578

自然語言處理研究的基本問題及發展趨勢

自然語言處理（NLP）是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。隨著深度學習在圖像識別、語音識別領域的大放異彩，人們對深度學習在NLP的價值也寄予厚望。

2018-09-21 14:22:57

8232

自然語言處理發展中不得不知的8件大事紀要

自然語言是人類獨有的智慧結晶。自然語言處理（Natural Language Processing，NLP）是計算機科學領域與人工智能領域中的一個重要方向，旨在研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。

2018-10-21 09:52:20

4340

自然語言處理的ELMO使用

word embedding 是現在自然語言處理中最常用的 word representation 的方法，常用的word embedding 是word2vec的方法，然而word2vec本質上是一個靜態模型，也就是說利用word2vec訓練完每個詞之后，詞的表示就固定了，

2019-05-02 14:32:00

3042

采用深度學習對自然語言處理進行分類

用深度學習對自然語言處理（NLP）進行分類

2018-11-05 06:51:00

2945

盤點自然語言處理發展史上的8個轉折點

2018-11-02 17:34:39

8198

自然語言處理入門基礎之hanlp詳解

、ElasticSearch、hadoop、android、Resin等平臺，有大量開源作者開發各種查件與拓展，并且被包裝或移植到Python、C#、R、JavaScript等語言上去。hanlp自然語言處理應用領域文章來源于網絡

2018-11-29 14:33:45

522

淺談自然語言處理中的注意力機制

本文深入淺出地介紹了近些年的自然語言中的注意力機制包括從起源、變體到評價指標方面。

2019-01-25 16:51:17

6045

面向自然語言處理的神經網絡遷移學習的答辯PPT

現實中的自然語言處理面臨著多領域、多語種上的多種類型的任務，為每個任務都單獨進行數據標注是不大可行的，而遷移學習可以將學習的知識遷移到相關的場景下

2019-03-02 09:16:24

2885

自然語言處理有明顯和知識圖譜結合的趨勢

對于新型的深度學習框架，目前在自然語言處理中的應用還有待進一步加深和提高。比如對抗學習、對偶學習等雖然在圖像處理領域得到了比較好的效果，但是在自然語言處理領域的效果就稍微差一些。形。

2019-04-05 17:07:00

5649

多個視角對自然語言處理領域進行全面梳理

接著，對自然語言處理面臨的技術挑戰進行了分析，包括自然語言中大量存在的未知語言現象、歧義詞匯和結構、隱喻表達、以及翻譯問題中不同語言之間概念的不對等性等，語義概念的表示和計算、說話人意圖的理解和推理、以及語用場景的分析是當前面臨的核心挑戰。

2019-05-19 09:33:34

3293

斯坦福AI Lab主任、NLP大師Manning：將深度學習應用于自然語言處理領域的領軍者

像Alexa和Siri那樣的對話助手對自然語言處理產生了巨大的影響。最開始這些變化跟深度學習和自然語言處理關系不大，因為基本上用的都是人工編輯的腳本。所以這些積極的影響是得益于基于規則的自然語言處理的再度出現，跟機器學習和我從1995年到2010年主要研究的那種概率自然語言處理關系都不是很大。

2019-07-07 07:47:00

3962

解讀人工智能理解的自然語言的原理和概念

人工智能理解自然語言的原理是什么？要有針對性地回答該問題，需先將它的議題邊界進行明確定義。如果將該問題理解為如何利用計算機工具處理和分析自然語言，以實現人與計算機通過自然語言進行的有效溝通，那么可以得到一個相對狹義的回答。

2019-08-09 14:43:19

5582

如何利用人工智能和大數據來處理自然語言

學術領域叫自然語言，其實指的就是人類語言。自然語言處理可以說是從人工智能這個詞尚未出現前，就是一個重要研究對象。

2019-10-31 16:30:00

3322

自然語言處理與人工智能有著怎樣的關系

要想理解自然語言處理，讓我們先來看什么是“自然語言”。通常認為，語言是人類區別其他動物的本質特性。在所有生物中，只有人類才具有語言能力。

2019-11-04 22:22:24

10303

自然語言處理如何為全球抗疫

隨著互聯網的普及和海量信息的涌現，作為人工智能領域中的一個重要方向，自然語言處理（NLP）正在人們的日常生活中扮演著越來越重要的角色，并將在科技創新的過程中發揮越來越重要的作用。

2020-04-23 09:15:27

1263

用在自然語言處理上的業務應用有哪一些

自然語言處理（NLP）對于企業來說已經不僅僅是一種新興的技術，它還是一種每天都在廣泛使用的技術。

2020-04-23 09:19:05

1785

自然語言處理的前景是怎樣的

機器翻譯是更好的自然語言處理（NLP）應用程序之一，但它并不是最常用的一種。

2020-04-24 15:12:38

5434

自然語言處理的發展簡史

自然語言處理是一門融語言學、計算機科學、數學于一體的科學。因此，這一領域的研究將涉及自然語言，即人們日常使用的語言，所以它與語言學的研究有著密切的聯系，但又有重要的區別。

2020-05-11 17:22:02

9227

自然語言處理（NLP）的學習方向

自然語言處理（Natural Language Processing，NLP）是計算機科學領域與人工智能領域中的一個重要方向。它研究人與計算機之間用自然語言進行有效通信的理論和方法。融語言學、計算機

2020-07-06 16:30:24

12429

騰訊自然語言處理面試問題

師兄在騰訊，就讓師兄內推了一下騰訊自然語言處理的實習。在內推前，簡單把李航的統計學習方法，簡歷涉及的知識點都過了一遍，整理了一下，同時leetcode刷了大概100題。準備過后就把簡歷給師兄

2020-11-03 18:02:48

2793

淺析自然語言處理在人工智能領域中的重要性

自然語言處理（NLP）使聊天機器人能夠理解我們的會話信息并相應地作出響應。

2020-11-05 10:27:59

5307

自然語言處理已成為聊天機器人的核心工具

自然語言處理（NLP）使聊天機器人能夠理解我們的會話信息并相應地作出響應。

2020-11-05 14:24:44

2195

自然語言處理是人工智能領域中的一個重要方向

作為未來科技發展的前沿領域，人工智能在技術應用方面有很多細分領域，比如深度學習、推薦引擎、計算機視覺、智能機器人、自然語言處理、實時語音翻譯、視覺內容自動識別等。其中的自然語言處理，是人工智能領域

2020-12-17 11:07:21

4083

谷歌和微軟自然語言理解榜單中超越人類表現

近日，科技公司谷歌和微軟相繼在一份權威自然語言理解榜單中超越人類的表現，微軟宣稱這“標志著邁向通用人工智能的重要里程碑。” 自然語言理解（Natural Language Understanding

2021-01-08 16:54:21

1687

自然語言處理是什么？有什么用？

“自然語言處理” （Natural Language Processing，簡稱NLP）是近年來科技界最熱門的詞語之一，也是當下人工智能研究最熱門的領域之一。自然語言處理推動著語言智能的持續發展

2021-02-08 16:00:00

5698

自然語言處理的圖像文本建模相關研究及分析

近年來，圖像文本建模研究已經成為自然語言處理領域一個重要的硏究方向。圖像常被用于增強句子的語義理解與表示。然而也有硏究人員對圖像信息用于句子語義理解的必要性提岀質疑，原因是文本本身就能夠提供強有力

2021-03-24 11:33:59

基于深度學習的自然語言處理對抗樣本模型

深度學習模型被證明存在脆弱性并容易遭到對抗樣本的攻擊，但目前對于對抗樣本的研究主要集中在計算機視覺領域而忽略了自然語言處理模型的安全問題。針對自然語言處理領域冋樣面臨對抗樣夲的風險，在闡明對抗樣本

2021-04-20 14:36:57

淺談圖神經網絡在自然語言處理中的應用簡述

近幾年，神經網絡因其強大的表征能力逐漸取代傳統的機器學習成為自然語言處理任務的基本模型。然而經典的神經網絡模型只能處理歐氏空間中的數據，自然語言處理領域中，篇章結構，句法甚至句子本身都以圖數據的形式存在。

2021-04-26 14:57:07

2952

C語言基礎知識講解

C語言基礎知識講解

2021-05-19 17:39:55

入門自然語言處理的基本任務——文本匹配

半個月的努力，最終結果勉強不錯（第6），收割了一臺Kindle。 2021年1月，疫情形勢依然嚴峻，幸運的是國家不僅及時穩住了疫情，還研發出了有效的疫苗。借助疫情主題的比賽，我希望幫助更多讀者，入門自然語言處理的基本任務——文本匹配。

2021-05-31 11:51:29

2845

如何使用TensorRT 8.0進行實時自然語言處理

　　大規模語言模型（ LSLMs ）如 BERT 、 GPT-2 和 XL-Net 為許多自然語言處理（ NLP ）任務帶來了令人興奮的精度飛躍。自 2018 年 10 月發布以來， BERT （來自變形金剛的雙向編碼器表示）及其眾多變體仍然是最流行的語言模型之一，仍然提供最先進的準確性。

2022-04-02 10:31:18

1545

自然語言分析NLA技術的發展史

自然語言處理（Natural Language Processing，簡稱NLP）就是用計算機來處理、理解以及運用人類語言(如中文、英文等)，它屬于人工智能的一個分支，是計算機科學與語言學的交叉學科。

2022-05-11 15:45:14

864

自然語言分析(NLA)是什么

連續多年入選 “Gartner增強分析代表廠商”的Smartbi正是看到了自然語言查詢的趨勢，自主研發了增強分析 NLA，希望能夠利用自然語言查詢、知識圖譜、推薦算法、智能問答等智能技術來了解使用者對數據的需求，從而幫助使用者更快地進行分析，獲取更多的資料。

2022-05-24 17:35:38

456

一窺AMR圖譜在自然語言處理中的應用

TreeBank 作為自然語言語法的結構化表示可謂廣為人知，其實在語義層面也有一種類似的結構化方法——抽象語義表示（Abstract Meaning Representation，AMR）。

2022-09-05 14:22:52

1300

基于用于自然語言生成的“語境調優”技術

自然語言生成（又稱為文本生成）旨在基于輸入數據用人類語言生成合理且可讀的文本。隨著預訓練語言模型的發展，GPT-3，BART等模型逐漸成為了生成任務的主流模型。近年來，為了利用預訓練階段編碼的豐富知識，提示學習成為了一個簡單而強大的方法。

2022-10-14 15:38:43

762

自然語言入門之ESIM

ESIM是ACL2017的一篇論文，在當時成為各個NLP比賽的殺器，直到現在仍是入門自然語言推理值得一讀的文章。本文根據ESIM原文以及pytorch代碼實現對ESIM模型進行總結

2023-02-22 11:34:31

639

復旦大學NLP實驗室《自然語言處理導論》網絡初版發布

復旦大學自然語言處理實驗室張奇教授、桂韜研究員以及黃萱菁教授從2020年起著手教材的規劃，結合自己對相關領域的核心問題的理解，和長期教學、研究以及工程實踐經驗，系統梳理了自然語言處理領域發展至今的關鍵知識，歷時近三年，終于在近期完成了初版。

2023-02-28 09:30:12

691

ChatGPT在自然語言處理中的局限性和挑戰

隨著人工智能技術的不斷發展，自然語言處理已經成為人工智能領域中備受矚目的重要研究方向。ChatGPT作為自然語言處理技術中的一種，已經在自然語言理解和生成方面取得了顯著的成就。然而，盡管如此

2023-04-18 16:25:21

934

STM32中C語言的基礎知識

C語言是單片機開發中的必備基礎知識，本文列舉了部分STM32學習中比較常見的一些C語言基礎知識，希望能對大家有所幫助。

2023-04-27 17:42:53

907

人工智能python是什么

人工智能Python的應用場景首先是自然語言處理領域。在自然語言處理中，Python可用于文本處理、語音識別和語音合成、情感分析等多個方面。自然語言處理可以讓機器識別自然語言，更好地理解人們的疑問和需要，并提供有用的輸出。

2023-08-13 10:44:38

634

自然語言處理的優缺點有哪些自然語言處理包括哪些內容

自然語言處理（Natural Language Processing）是一種人工智能的技術及領域，它致力于讓計算機理解及處理人類語言。它可以幫助計算機對人類語言進行處理、理解和生成，使得計算機可以像人類一樣與人們進行交互，如智能語音助手、自動翻譯器、智能問答系統等。

2023-08-23 17:26:51

2060

自然語言處理的概念和應用自然語言處理屬于人工智能嗎

　　自然語言處理(Natural Language Processing)是一種人工智能技術，它是研究自然語言與計算機之間的交互和通信的一門學科。自然語言處理旨在研究機器如何理解人類語言，并使機器能夠利用自然語言與人類進行交互、執行任務等。

2023-08-23 17:31:14

692

自然語言處理和人工智能的概念及發展史自然語言處理和人工智能的區別

自然語言處理(Natural Language Processing, NLP)的定義是通過電腦軟件程序實現人們日常語言的機器自動處理。為了幫助計算機理解，掌握自然語言處理的基本原理，需要涉及到自然語言處理的發展史和人工智能的概念和發展史，以及自然語言處理和人工智能之間的區別。

2023-08-23 18:22:37

478

自然語言處理和人工智能的區別

　　自然語言處理(Natural Language Processing，NLP)是人工智能(AI)中的一個分支，它利用計算機技術對自然語言進行處理，使得電腦能夠理解和操作人類語言。自然語言處理技術包括文本分析、語音識別和機器翻譯等，這些技術已經廣泛應用于在線客服、文本分類、語音助手等領域。

2023-08-28 17:32:09

785

自然語言處理的研究內容

自然語言處理（NLP）的最新發展改變了我們與AI系統的交互方式： 1. 預訓練模型：像 GPT-3 這樣的模型已經進步，使人工智能能夠在聊天機器人和虛擬助手中生成更連貫的上下文感知響應。 2.

2024-01-18 16:39:21

129

已全部加載完成

搜索歷史

python自然語言處理基礎知識入門 - 全文

自然語言處理

NLTK自然語言處理工具包

NLTK簡介

使用 NLTK

NLTK 語料庫

NLTK 命名約定

windows下NLTK環境搭建

NLTK 安裝

測試

NLTK自帶方法進行自然語言處理

句法分析

本文導航

評論

　　自然語言處理

　　NLTK自然語言處理工具包

　　NLTK簡介

　　使用 NLTK

　　NLTK 語料庫

　　NLTK 命名約定

　　windows下NLTK環境搭建

　　NLTK 安裝

　　測試

　　NLTK自帶方法進行自然語言處理

　　句法分析