人工智能Text Generation文本生成原理示例詳解
承上啟下
上一篇文章我們介紹了 RNN 相關(guān)的基礎(chǔ)知識,現(xiàn)在我們介紹文本生成的基本原理,主要是為了能夠靈活運用 RNN 的相關(guān)知識,真實的文本生成項目在實操方面比這個要復(fù)雜,但是基本的原理是不變的,這里就是拋磚引玉了。
RNN 基礎(chǔ)知識回顧鏈接:http://www.dhdzp.com/article/228994.htm
原理
我們這里用到了 RNN 來進行文本生成,其他的可以對時序數(shù)據(jù)進行建模的模型都可以拿來使用,如 LSTM 等。這里假如已經(jīng)訓(xùn)練好一個 RNN 模型來預(yù)測下一個字符,假如我們限定了輸入的長度為為 21 ,這里舉例說明:
input:“the cat sat on the ma”
把 21 個字符的文本分割成字符級別的輸入,輸進到模型中,RNN 來積累輸入的信息,最終輸出的狀態(tài)向量 h ,然后經(jīng)過全連接層轉(zhuǎn)換和 Softmax 分類器的分類,最終輸出是一個候選字符的概率分布。
在上面的例子中,輸入“the cat sat on the ma”,最后會輸出 26 個英文字母和其他若干用到的字符(如可能還有標點,空格等)的概率分布。
"a" --> 0.05 "b" --> 0.03 "c" --> 0.054 ... "t" --> 0.06 ... "," --> 0.01 "。" --> 0.04
此時預(yù)測的下一個字符“t”概率值最大,所以選擇“t”作為下一個字符,我們之后將“t”拼接到“the cat sat on the ma”之后得到“the cat sat on the mat”,然后我們?nèi)『?21 個字符“he cat sat on the mat”,輸入到模型中
input:“he cat sat on the mat”
此時加入預(yù)測下一個字符的概率分布中“。”的概率最大,我們就取“。”拼接到“the cat sat on the mat”之后,得到“the cat sat on the mat。”,如果還需要繼續(xù)進行下去,則不斷重復(fù)上面的過程。如果我們的文本生成要求到此結(jié)束,則最終得到了文本
the cat sat on the mat。
通常我們要用和目標相同的數(shù)據(jù)進行訓(xùn)練。如想生成詩詞,就用唐詩宋詞去訓(xùn)練模型,像生成歌詞,就用周杰倫的歌詞去訓(xùn)練。
選取預(yù)測的下一個字符的三種方式
一般在得到概率分布,然后去預(yù)測下一個字符的時候,會有三種方法。
第一種方法就是像上面提到的,選擇概率分布中概率最大的字符即可。這種方法雖然最簡單,但是效果并不是最好的,因為幾乎預(yù)測字符都是確定的,但是不能達到多元化的有意思的字符結(jié)果。公式如下:
next_index = np.argmax(pred)
第二種方法會從多項分布中隨機抽樣,預(yù)測成某個字符的概率為多少,則它被選取當作下一個字符的概率就是多少。在實際情況中往往概率分布中的值都很小,而且很多候選項的概率相差不大,這樣大家被選擇的概率都差不多,下一個字符的預(yù)測隨機性就很強。假如我們得到預(yù)測成某個正確字符的概率為 0.1 ,而預(yù)測成其他幾個字符的概率也就只是稍微低于 0.1 ,那么這幾個字符被選取當作下一個字符的概率都很相近。這種方式過于隨機,生成的文本的語法和拼寫錯誤往往很多。公式如下:
next_onehot = np.random.multimomial(1, pred, 1) next_index = np.argmax(next_onehot)
第三種方法是介于前兩種方法之間的一種,生成的下一個字符具有一定的隨機性,但是隨機性并不大,這要靠 temperature 參數(shù)進行調(diào)節(jié), temperature 是在 0 到 1 之間的小數(shù),如果為 1 則和第一種方法相同,如果為其他值則可以將概率進行不同程度的放大,這表示概率大的字符越大概率被選取到,概率小的字符越小概率被選擇到,這樣就可以有明顯的概率區(qū)分度,這樣就不會出現(xiàn)第二種方法中的情況。公式如下所示:
pred = pred ** (1/temperature) pred = pred / np.sum(pred)
訓(xùn)練
假如我們有一句話作為訓(xùn)練數(shù)據(jù),如下:
Machine learning is a subset of artificial intelligence.
我們設(shè)置兩個參數(shù) len = 5 和 stride = 3 ,len 是輸入長度,stride 是步長,我們將輸入 5 個字符作為輸入,然后輸入下一個字符作為標簽,如下
input:“Machi” target:“n”
然后因為我們設(shè)置了 stride 為 3 ,所以我們在文本中向右平移 3 位,然后又選擇 5 個字符作為輸入,之后的一個字符作為標簽,如下:
input:“hine ” target:“l(fā)”
如此往復(fù),不斷向右平移 3 個字符,將新得到的 5 個字符和接下來的 1 個字符作為標簽作為訓(xùn)練數(shù)據(jù)輸入到模型中,讓模型學習文本內(nèi)部的特征。其實訓(xùn)練數(shù)據(jù)就是(字符串,下一個字符)的鍵值對。此時得到的所有訓(xùn)練數(shù)據(jù)為:
input:'Machi' target:'n' input:'hine ' target:'l' input:'e lea' target:'r' ... input:'ligen' target:'c'
然后用這些訓(xùn)練數(shù)據(jù)進行大量的訓(xùn)練得到的模型,就可以用來生成新的文本啦!。
總結(jié)
訓(xùn)練模型的流程大致需要三個過程:
1.將訓(xùn)練數(shù)據(jù)整理成(segment,next_char)的組合
2.用 one-hot 將字符編碼,segment 編碼成 l*v 的向量,next_char 編碼成 v*1 的向量,l 是輸入長度,v 是字符總個數(shù)
3.構(gòu)建一個網(wǎng)絡(luò),輸入是 l*v 的矩陣,然后通過 RNN 或者 LSTM 捕捉文本特征,然后將最后的特征進行全連接層進行轉(zhuǎn)換,全連接層用 Softmax 作為激活函數(shù),最后輸出一個 v*1 的概率分布,下一個字符的選擇方式可以看上面的內(nèi)容。
生成文本的流程大致需要三個過程:
一般在已經(jīng)訓(xùn)練好模型的情況下,我們要輸入字符串當作種子輸入,讓其作為我們接下來要生成文本的開頭,然后不斷重復(fù)下面的過程:
- a)把輸入使用 one-hot 向量表示,然后輸入到模型中
- b)在神經(jīng)網(wǎng)絡(luò)輸出的概率分布中選取一個字符,作為預(yù)測的下一個字符
- c)將預(yù)測的字符拼接到之前的文本后,選取新的輸入文本
案例
這里有我之前實現(xiàn)的兩個小案例,可以用來復(fù)習 RNN 和 LSTM 的相關(guān)知識,覺好留贊。
深度學習TextRNN的tensorflow1.14實現(xiàn)示例
深度學習TextLSTM的tensorflow1.14實現(xiàn)示例
另外 github 上也有很多開源的文本生成項目,項目實現(xiàn)要稍微復(fù)雜一點,但是原理和我介紹的一樣,我這里介紹兩個。
https://github.com/stardut/Text-Generate-RNN
https://github.com/wandouduoduo/SunRnn
以上就是Text Generation文本生成原理示例詳解的詳細內(nèi)容,更多關(guān)于Text Generation文本生成的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
巧用Python裝飾器 免去調(diào)用父類構(gòu)造函數(shù)的麻煩
巧用Python裝飾器 免去調(diào)用父類構(gòu)造函數(shù)的麻煩,需要的朋友可以參考下2012-05-05
python程序?qū)崿F(xiàn)BTC(比特幣)挖礦的完整代碼
這篇文章主要介紹了python程序?qū)崿F(xiàn)BTC(比特幣)挖礦的完整代碼,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2021-01-01
Python+Pygame實戰(zhàn)之俄羅斯方塊游戲的實現(xiàn)
俄羅斯方塊,作為是一款家喻戶曉的游戲,陪伴70、80甚至90后,度過無憂的兒時歲月,它上手簡單能自由組合、拼接技巧也很多。本文就來用Python中的Pygame模塊實現(xiàn)這一經(jīng)典游戲,需要的可以參考一下2022-12-12

