人工智能Text Generation文本生成原理示例詳解

更新時間：2023年01月05日 15:45:59 作者：我是王大你是誰

這篇文章主要為大家介紹了Text Generation文本生成原理示例詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步，早日升職加薪

承上啟下

上一篇文章我們介紹了 RNN 相關(guān)的基礎(chǔ)知識，現(xiàn)在我們介紹文本生成的基本原理，主要是為了能夠靈活運用 RNN 的相關(guān)知識，真實的文本生成項目在實操方面比這個要復(fù)雜，但是基本的原理是不變的，這里就是拋磚引玉了。

RNN 基礎(chǔ)知識回顧鏈接：http://www.dhdzp.com/article/228994.htm

原理

我們這里用到了 RNN 來進行文本生成，其他的可以對時序數(shù)據(jù)進行建模的模型都可以拿來使用，如 LSTM 等。這里假如已經(jīng)訓(xùn)練好一個 RNN 模型來預(yù)測下一個字符，假如我們限定了輸入的長度為為 21 ，這里舉例說明：

input：“the cat sat on the ma”

把 21 個字符的文本分割成字符級別的輸入，輸進到模型中，RNN 來積累輸入的信息，最終輸出的狀態(tài)向量 h ，然后經(jīng)過全連接層轉(zhuǎn)換和 Softmax 分類器的分類，最終輸出是一個候選字符的概率分布。

在上面的例子中，輸入“the cat sat on the ma”，最后會輸出 26 個英文字母和其他若干用到的字符（如可能還有標點，空格等）的概率分布。

"a" --> 0.05
"b" --> 0.03
"c" --> 0.054
...
"t" --> 0.06
...
"，" --> 0.01
"。" --> 0.04

此時預(yù)測的下一個字符“t”概率值最大，所以選擇“t”作為下一個字符，我們之后將“t”拼接到“the cat sat on the ma”之后得到“the cat sat on the mat”，然后我們?nèi)『?21 個字符“he cat sat on the mat”，輸入到模型中

input：“he cat sat on the mat”

此時加入預(yù)測下一個字符的概率分布中“。”的概率最大，我們就取“。”拼接到“the cat sat on the mat”之后，得到“the cat sat on the mat。”，如果還需要繼續(xù)進行下去，則不斷重復(fù)上面的過程。如果我們的文本生成要求到此結(jié)束，則最終得到了文本

the cat sat on the mat。

通常我們要用和目標相同的數(shù)據(jù)進行訓(xùn)練。如想生成詩詞，就用唐詩宋詞去訓(xùn)練模型，像生成歌詞，就用周杰倫的歌詞去訓(xùn)練。

選取預(yù)測的下一個字符的三種方式

一般在得到概率分布，然后去預(yù)測下一個字符的時候，會有三種方法。

第一種方法就是像上面提到的，選擇概率分布中概率最大的字符即可。這種方法雖然最簡單，但是效果并不是最好的，因為幾乎預(yù)測字符都是確定的，但是不能達到多元化的有意思的字符結(jié)果。公式如下：

next_index = np.argmax(pred)

第二種方法會從多項分布中隨機抽樣，預(yù)測成某個字符的概率為多少，則它被選取當作下一個字符的概率就是多少。在實際情況中往往概率分布中的值都很小，而且很多候選項的概率相差不大，這樣大家被選擇的概率都差不多，下一個字符的預(yù)測隨機性就很強。假如我們得到預(yù)測成某個正確字符的概率為 0.1 ，而預(yù)測成其他幾個字符的概率也就只是稍微低于 0.1 ，那么這幾個字符被選取當作下一個字符的概率都很相近。這種方式過于隨機，生成的文本的語法和拼寫錯誤往往很多。公式如下：

next_onehot = np.random.multimomial(1, pred, 1)
next_index = np.argmax(next_onehot)

第三種方法是介于前兩種方法之間的一種，生成的下一個字符具有一定的隨機性，但是隨機性并不大，這要靠 temperature 參數(shù)進行調(diào)節(jié), temperature 是在 0 到 1 之間的小數(shù)，如果為 1 則和第一種方法相同，如果為其他值則可以將概率進行不同程度的放大，這表示概率大的字符越大概率被選取到，概率小的字符越小概率被選擇到，這樣就可以有明顯的概率區(qū)分度，這樣就不會出現(xiàn)第二種方法中的情況。公式如下所示：

pred = pred ** (1/temperature)
pred = pred / np.sum(pred)

訓(xùn)練

假如我們有一句話作為訓(xùn)練數(shù)據(jù)，如下：

Machine learning is a subset of artificial intelligence.

我們設(shè)置兩個參數(shù) len = 5 和 stride = 3 ，len 是輸入長度，stride 是步長，我們將輸入 5 個字符作為輸入，然后輸入下一個字符作為標簽，如下

input：“Machi”
target：“n”

然后因為我們設(shè)置了 stride 為 3 ，所以我們在文本中向右平移 3 位，然后又選擇 5 個字符作為輸入，之后的一個字符作為標簽，如下：

input：“hine ”
target：“l(fā)”

如此往復(fù)，不斷向右平移 3 個字符，將新得到的 5 個字符和接下來的 1 個字符作為標簽作為訓(xùn)練數(shù)據(jù)輸入到模型中，讓模型學習文本內(nèi)部的特征。其實訓(xùn)練數(shù)據(jù)就是（字符串，下一個字符）的鍵值對。此時得到的所有訓(xùn)練數(shù)據(jù)為：

input：'Machi'
target：'n'
input：'hine '
target：'l'
input：'e lea'
target：'r'
...	
input：'ligen'
target：'c'

然后用這些訓(xùn)練數(shù)據(jù)進行大量的訓(xùn)練得到的模型，就可以用來生成新的文本啦！。

總結(jié)

訓(xùn)練模型的流程大致需要三個過程：

1.將訓(xùn)練數(shù)據(jù)整理成（segment，next_char）的組合

2.用 one-hot 將字符編碼，segment 編碼成 l*v 的向量，next_char 編碼成 v*1 的向量，l 是輸入長度，v 是字符總個數(shù)

3.構(gòu)建一個網(wǎng)絡(luò)，輸入是 l*v 的矩陣，然后通過 RNN 或者 LSTM 捕捉文本特征，然后將最后的特征進行全連接層進行轉(zhuǎn)換，全連接層用 Softmax 作為激活函數(shù)，最后輸出一個 v*1 的概率分布，下一個字符的選擇方式可以看上面的內(nèi)容。

生成文本的流程大致需要三個過程：

一般在已經(jīng)訓(xùn)練好模型的情況下，我們要輸入字符串當作種子輸入，讓其作為我們接下來要生成文本的開頭，然后不斷重復(fù)下面的過程：