AI智能 標(biāo)記化,詞干化和詞形化的概念

2020-09-23 17:43 更新

在本節(jié)中,我們將了解什么是標(biāo)記化,詞干化和詞形化。

1. 標(biāo)記化

它可以被定義為將給定文本即字符序列分成稱為令牌的較小單元的過程。令牌可以是單詞,數(shù)字或標(biāo)點(diǎn)符號。 它也被稱為分詞。 以下是標(biāo)記化的一個簡單示例 -

輸入 - 芒果,香蕉,菠蘿和蘋果都是水果。

輸出 -

img

打斷給定文本的過程可以通過查找單詞邊界來完成。 單詞的結(jié)尾和新單詞的開頭稱為單詞邊界。 文字的書寫體系和印刷結(jié)構(gòu)會影響邊界。

在 Python NLTK 模塊中,有與標(biāo)記化有關(guān)的不同包,可以根據(jù)需要將文本劃分為標(biāo)記。 一些軟件包如下所示 -

sent_tokenize 包

顧名思義,這個軟件包會將輸入文本分成幾個句子。 可以使用下面的 Python 代碼導(dǎo)入這個包 -

from nltk.tokenize import sent_tokenize

word_tokenize 包

這個包將輸入文本分成單詞??梢允褂孟旅娴?Python代碼來導(dǎo)入這個包 -

from nltk.tokenize import word_tokenize

WordPuncttokenizer 包

這個包將輸入文本分成單詞和標(biāo)點(diǎn)符號??梢允褂孟旅娴?Python 代碼來導(dǎo)入這個包 -

from nltk.tokenize import WordPuncttokenizer

2. 詞干

在處理文字時,由于語法原因,我們遇到了很多變化。 這里的變化的概念意味著必須處理像:democracy, democraticdemocratization 等不同形式的相同詞匯。機(jī)器非常需要理解這些不同的單詞具有相同的基本形式。 通過這種方式,在分析文本的同時提取單詞的基本形式將會很有用。

我們可以通過阻止來實(shí)現(xiàn)這一點(diǎn)。 通過這種方式,可以說干擾是通過切斷單詞的結(jié)尾來提取單詞基本形式的啟發(fā)式過程。

在Python NLTK模塊中,有一些與 stemming 相關(guān)的其它包。 這些包可以用來獲取單詞的基本形式。 這些軟件包使用算法。 一些軟件包如下所示 -

PorterStemmer包

這個 Python 包使用 Porter 算法來提取基礎(chǔ)表單。可以使用下面的 Python 代碼來這個包 -

from nltk.stem.porter import PorterStemmer

例如,如果將 writing 這個詞作為這個詞干的輸入,它們就會在詞干之后得到 write 這個詞。

LancasterStemmer 包

這個 Python 包將使用 Lancaster 的算法來提取基本形式。 可以使用下面的 Python 代碼來導(dǎo)入這個包 -

from nltk.stem.lancaster import LancasterStemmer

例如,如果將 writing 這個詞作為這個詞干的輸入,它們就會在詞干之后得到 write 這個詞。

SnowballStemmer 包

這個 Python 包將使用雪球算法來提取基本形式。 可以使用下面的 Python 代碼來導(dǎo)入這個包 -

from nltk.stem.snowball import SnowballStemmer

例如,如果將 writing 這個詞作為這個詞干的輸入,它們就會在詞干之后得到 write 這個詞。

所有這些算法都有不同程度的嚴(yán)格性。 如果比較這三個詞干的話,那么波特詞干是最不嚴(yán)格的,蘭卡斯特詞干是最嚴(yán)格的。 雪球詞干在速度和嚴(yán)格性方面都很好用。

詞形還原

也可以通過詞形化來提取單詞的基本形式。 它基本上通過使用詞匯的詞匯和形態(tài)分析來完成這項(xiàng)任務(wù),通常旨在僅刪除變元結(jié)尾。 任何單詞的這種基本形式都稱為引理。

詞干化和詞性化的主要區(qū)別在于詞匯的使用和形態(tài)分析。 另一個區(qū)別是,詞干最常見的是崩潰派生相關(guān)的詞匯,而詞素化通常只會折攏引理的不同的折點(diǎn)形式。 例如,如果提供單詞 saw 作為輸入詞,那么詞干可能會返回單詞 's',但詞形化會嘗試返回單詞,看看或看到取決于使用該單詞是動詞還是名詞。

在 Python NLTK 模塊中,有以下與詞形化過程有關(guān)的包,可以使用它來獲取詞的基本形式 -

WordNetLemmatizer 包

這個Python包將提取單詞的基本形式,取決于它是用作名詞還是動詞。 可以使用下面的 Python 代碼的來導(dǎo)入這個包 -

from nltk.stem import WordNetLemmatizer
以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號