終于明白tf.reduce_sum()函數(shù)和tf.reduce_mean()函數(shù)用法

更新時(shí)間：2022年11月28日 10:13:10 作者：不想禿頂還想當(dāng)程序猿

這篇文章主要介紹了終于明白tf.reduce_sum()函數(shù)和tf.reduce_mean()函數(shù)用法，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教

解讀tf.reduce_sum()函數(shù)和tf.reduce_mean()函數(shù)

在學(xué)習(xí)搭建神經(jīng)網(wǎng)絡(luò)的時(shí)候，照著敲別人的代碼，有一句代碼一直搞不清楚，就是下面這句了

loss = tf.reduce_mean(tf.reduce_sum(tf.square(ys - prediction), reduction_indices=[1]))

剛開(kāi)始照著up主寫(xiě)的代碼是這樣滴：

loss = tf.reduce_mean(tf.reduce_sum(tf.square(ys - prediction)))

然后就出現(xiàn)了這樣的結(jié)果：

709758.1
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan

怎么肥事，對(duì)于萌新小白首先想到的就是找度娘，結(jié)果找到的方法都不行，然后開(kāi)始查函數(shù)，終于發(fā)現(xiàn)了原因，問(wèn)題就出在reduce_sum()函數(shù)上，哈哈哈，然后小白又叕叕叕開(kāi)始找博客學(xué)習(xí)reduce_sum()順帶學(xué)下reduce_mean(),結(jié)果看了好幾篇，還是腦袋一片漿糊，為啥用reduction_indices=[1]，不用reduction_indices=[0]或者干脆不用，費(fèi)了九牛二虎之力終于讓我給弄懂了，趕緊記錄下來(lái)??！

-------------------分割線-------------------

1.tf.reduce_mean 函數(shù)

用于計(jì)算張量tensor沿著指定的數(shù)軸（tensor的某一維度）上的的平均值，主要用作降維或者計(jì)算tensor（圖像）的平均值。

reduce_mean(input_tensor,
? ? ? ? ? ? ? ? axis=None,
? ? ? ? ? ? ? ? keep_dims=False,
? ? ? ? ? ? ? ? name=None,
? ? ? ? ? ? ? ? reduction_indices=None)

第一個(gè)參數(shù)input_tensor：輸入的待降維的tensor;
第二個(gè)參數(shù)axis：指定的軸，如果不指定，則計(jì)算所有元素的均值;
第三個(gè)參數(shù)keep_dims：是否降維度，設(shè)置為T(mén)rue，輸出的結(jié)果保持輸入tensor的形狀，設(shè)置為False，輸出結(jié)果會(huì)降低維度;
第四個(gè)參數(shù)name：操作的名稱(chēng);
第五個(gè)參數(shù) reduction_indices：在以前版本中用來(lái)指定軸，已棄用;

2.tf.reduce_sum函數(shù)

計(jì)算一個(gè)張量的各個(gè)維度上元素的總和，一般只需設(shè)置兩個(gè)參數(shù)

reduce_sum (?
? ? input_tensor ,?
? ? axis = None ,?
? ? keep_dims = False ,?
? ? name = None ,?
? ? reduction_indices = None
?)

第一個(gè)參數(shù)input_tensor：輸入的tensor
第二個(gè)參數(shù) reduction_indices：指定沿哪個(gè)維度計(jì)算元素的總和

最難的就是維度問(wèn)題，反正本小白看了好幾個(gè)博客都沒(méi)弄太懂，最后還是按自己的理解，直接上例子

reduce_sum()

tf.reduce_sum
matrix1 = [[1.,2.,3.], ? ? ? ? ? ?#二維，元素為列表
? ? ? ? ? [4.,5.,6.]]
matrix2 = [[[1.,2.],[3.,4.]], ? ? ?#三維，元素為矩陣
? ? ? ? ? ?[[5.,6.],[7.,8.]]]

res_2 = tf.reduce_sum(matrix1)
res_3 = tf.reduce_sum(matrix2)
res1_2 = tf.reduce_sum(matrix1,reduction_indices=[0])
res1_3 = tf.reduce_sum(matrix2,reduction_indices=[0])
res2_2 = tf.reduce_sum(matrix1,reduction_indices=[1])
res2_3 = tf.reduce_sum(matrix2,reduction_indices=[1])

sess = tf.Session()
print("reduction_indices=None：res_2={}，res_3={}".format(sess.run(res_2),sess.run(res_3)))
print("reduction_indices=[0]：res1_2={}，res1_3={}".format(sess.run(res1_2),sess.run(res1_3)))
print("reduction_indices=[1]：res2_2={}，res2_3={}".format(sess.run(res2_2),sess.run(res2_3)))

結(jié)果如下：

axis=None：res_2=21.0，res_3=36.0
axis=[0]：res1_2=[5. 7. 9.]，res1_3=[[ 6. 8.]
[10. 12.]]
axis=[1]：res2_2=[ 6. 15.]，res2_3=[[ 4. 6.]
[12. 14.]]

tf.reduce_mean

只需要把上面代碼的reduce_sum部分換成renduce_mean即可

res_2 = tf.reduce_mean(matrix1)
res_3 = tf.reduce_mean(matrix2)
res1_2 = tf.reduce_mean(matrix1,axis=[0])
res1_3 = tf.reduce_mean(matrix2,axis=[0])
res2_2 = tf.reduce_mean(matrix1,axis=[1])
res2_3 = tf.reduce_mean(matrix2,axis=[1])

結(jié)果如下：

axis=None：res_2=3.5，res_3=4.5
axis=[0]：res1_2=[2.5 3.5 4.5]，res1_3=[[3. 4.]
[5. 6.]]
axis=[1]：res2_2=[2. 5.]，res2_3=[[2. 3.]
[6. 7.]]

可以看到，reduction_indices和axis其實(shí)都是代表維度，當(dāng)為None時(shí)，reduce_sum和reduce_mean對(duì)所有元素進(jìn)行操作，當(dāng)為[0]時(shí)，其實(shí)就是按行操作，當(dāng)為[1]時(shí)，就是按列操作，對(duì)于三維情況，把最里面的括號(hào)當(dāng)成是一個(gè)數(shù)，這樣就可以用二維的情況代替，最后得到的結(jié)果都是在原來(lái)的基礎(chǔ)上降一維，下面按專(zhuān)業(yè)的方法講解：

對(duì)于一個(gè)多維的array，最外層的括號(hào)里的元素的axis為0，然后每減一層括號(hào)，axis就加1，直到最后的元素為單個(gè)數(shù)字

如上例中的matrix1 = [[1., 2., 3.], [4., 5., 6.]]：

axis=0時(shí)，所包含的元素有：[1., 2., 3.]、[4., 5., 6.]
axis=1時(shí)，所包含的元素有：1.、2.、3.、4.、5.、6.

所以當(dāng)reduction_indices/axis=[0]，應(yīng)對(duì)axis=0上的元素進(jìn)行操作，故reduce_sum()得到的結(jié)果為[5. 7. 9.]，即把兩個(gè)數(shù)組對(duì)應(yīng)元素相加；當(dāng)reduction_indices/axis=[1]，應(yīng)對(duì)axis=1上的元素進(jìn)行操作，故reduce_sum()得到的結(jié)果為[ 6. 15.]，即把每個(gè)數(shù)組里的元素相加。reduce_mean()同理。

不難看出對(duì)于三維情況也是同樣的思路，如上例中的matrix2 = [[[1,2],[3,4]], [[5,6],[7,8]]]：

axis=0時(shí)，所包含的元素有：[[1., 2.],[3., 4.]]、[[5., 6.],[7., 8.]]
axis=1時(shí)，所包含的元素有：[1., 2.]、[3., 4.]、[5., 6.]、[7., 8.]
axis=2時(shí)，所包含的的元素有：1.、2.、3.、4.、5.、6.、7.、8.

當(dāng)reduction_indices/axis=[0]，reduce_sum()得到的結(jié)果應(yīng)為[[ 6. 8.], [10. 12.]]，即把兩個(gè)矩陣對(duì)應(yīng)位置元素相加；當(dāng)reduction_indices/axis=[1]，reduce_sum()得到的結(jié)果應(yīng)為[[ 4. 6.], [12. 14.]]，即把數(shù)組對(duì)應(yīng)元素相加。reduce_mean()同理。

一句話就是對(duì)哪一維操作，計(jì)算完后外面的括號(hào)就去掉，相當(dāng)于降維。

那么問(wèn)題來(lái)了，當(dāng)reduction_indices/axis=[2]時(shí)呢？？？

對(duì)于二維情況，當(dāng)然是報(bào)錯(cuò)了，因?yàn)閍xis最大為1

ValueError: Invalid reduction dimension 2 for input with 2 dimensions. for 'Sum_4' (op: 'Sum') with input shapes: [2,3], [1] and with computed input tensors: input[1] = <2>.

對(duì)于三維情況，reduce_sum()得到的結(jié)果為：[[ 3. 7.], [11. 15.]]，即對(duì)最內(nèi)層括號(hào)里的元素求和。

-------------------分割線-------------------

回到最開(kāi)始自己的問(wèn)題，為什么只有設(shè)置參數(shù)reduction_indices=[1]，loss才不為Nan

loss = tf.reduce_mean(tf.reduce_sum(tf.square(ys - prediction),reduction_indices=[1]))

本程序構(gòu)建的是一個(gè)3層神經(jīng)網(wǎng)絡(luò)，輸入層只有1個(gè)神經(jīng)元，輸入數(shù)據(jù)為100個(gè)樣本點(diǎn)，即shape為(100,1)的列向量，隱藏層有10個(gè)神經(jīng)元，輸出層同樣只有1個(gè)神經(jīng)元，故最后輸出數(shù)據(jù)的shape也為(100,1)的列向量，那么reduce_sum的參數(shù)即為一個(gè)二維數(shù)組。