pytorch的梯度計(jì)算以及backward方法詳解

更新時(shí)間：2020年01月10日 08:36:25 作者：chen_you_Nick

今天小編就為大家分享一篇pytorch的梯度計(jì)算以及backward方法詳解，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧

基礎(chǔ)知識

tensors：

tensor在pytorch里面是一個(gè)n維數(shù)組。我們可以通過指定參數(shù)reuqires_grad=True來建立一個(gè)反向傳播圖，從而能夠計(jì)算梯度。在pytorch中一般叫做dynamic computation graph(DCG)——即動態(tài)計(jì)算圖。

import torch
import numpy as np

# 方式一
x = torch.randn(2,2, requires_grad=True)

# 方式二
x = torch.autograd.Variable(torch.Tensor([2,3]), requires_grad=True)

#方式三
x = torch.tensor([2,3], requires_grad=True, dtype=torch.float64)

# 方式四
x = np.array([1,2,3] ,dtype=np.float64)
x = torch.from_numpy(x)
x.requires_grad = True
# 或者 x.requires_grad_(True)

note1:在pytorch中，只有浮點(diǎn)類型的數(shù)才有梯度，故在方法四中指定np數(shù)組的類型為float類型。為什么torch.Tensor中不需要呢，可以通過以下代碼驗(yàn)證

import torch
import numpy as np

a = torch.Tensor([2,3])
print(a.dtype) # torch.floaat32

b = torch.tensor([2,3])
print(b.dtype) # torch.int64

 c = np.array(2,3)
 print(c.dtype) # int64

note2pytorch中tensor與Tensor的區(qū)別是什么？這兩個(gè)看起來如此相似。

首先，torch.Tensor是一個(gè)類，所有的tensor都是Tensor的一個(gè)實(shí)例；而torch.tensor是一個(gè)函數(shù)。這也說明了為什么使用torch.Tensor()沒有問題而torch.tensor()卻有問題。

其次，torch.tensor主要是將一個(gè)data封裝成tensor，并且可以指定requires_grad。

torch.tensor(data,dtype=None,device=None,requires_grad=False) - > Tensor

最后，我們更多地使用torch.tensor，我們可以通過使用torch.tensor(())來達(dá)到與torch.Tensor()同樣的效果。

具體可參考torch.tensor與torch.Tensor的區(qū)別

Dynamic Computational graph

我們來看一個(gè)計(jì)算圖

我們來看一個(gè)計(jì)算圖解釋一下各個(gè)屬性的含義，

data: 變量中存儲的值，如x中存儲著1，y中存儲著2，z中存儲著3

requires_grad：該變量有兩個(gè)值，True 或者 False，如果為True，則加入到反向傳播圖中參與計(jì)算。

grad：該屬性存儲著相關(guān)的梯度值。當(dāng)requires_grad為False時(shí)，該屬性為None。即使requires_grad為True，也必須在調(diào)用其他節(jié)點(diǎn)的backward()之后，該變量的grad才會保存相關(guān)的梯度值。否則為None

grad_fn：表示用于計(jì)算梯度的函數(shù)。

is_leaf：為True或者False，表示該節(jié)點(diǎn)是否為葉子節(jié)點(diǎn)。

當(dāng)調(diào)用backward函數(shù)時(shí)，只有requires_grad為true以及is_leaf為true的節(jié)點(diǎn)才會被計(jì)算梯度，即grad屬性才會被賦予值。

梯度計(jì)算

examples

運(yùn)算結(jié)果變量的requires_grad取決于輸入變量。例如：當(dāng)變量z的requires_grad屬性為True時(shí)，為了求得z的梯度，那么變量b的requires_grad就必須為true了，而變量x,y,a的requires_grad屬性都為False。

將事先創(chuàng)建的變量，如x、y、z稱為創(chuàng)建變量；像a、b這樣由其他變量運(yùn)算得到的稱為結(jié)果變量。

from torch.autograd import Variable

x = Variable(torch.randn(2,2))
y = Variable(torch.randn(2,2))
z = Variable(torch.randn(2,2), requires_grad=True)


a = x+y
b = a+z

print(x.requires_grad, y.requires_grad, z.requires_grad) # False, False, True
print(a.requires_grad, b.requires_grad) # False, True

print(x.requires_grad) # True
print(a.requires_grad) # True

調(diào)用backward()計(jì)算梯度

import torch as t
from torch.autograd import Variable as v

a = v(t.FloatTensor([2, 3]), requires_grad=True) 
b = a + 3
c = b * b * 3
out = c.mean()
out.backward(retain_graph=True) # 這里可以不帶參數(shù)，默認(rèn)值為‘1'，由于下面我們還要求導(dǎo)，故加上retain_graph=True選項(xiàng)

print(a.grad) # tensor([15., 18.])

backward中的gradient參數(shù)使用

a. 最后的結(jié)果變量為標(biāo)量（scalar）

如第二個(gè)例子，通過調(diào)用out.backward()實(shí)現(xiàn)對a的求導(dǎo)，這里默認(rèn)調(diào)用了out.backward(gradient=None)或者指定為out.backward(gradient=torch.Tensor([1.0])

b. 最后的結(jié)果變量為向量（vector）

import torch
from torch.autograd import Variable as V

m = V(torch.FloatTensor([2, 3]), requires_grad=True) # 注意這里有兩層括號，非標(biāo)量
n = V(torch.zeros(2))
n[0] = m[0] ** 2
n[1] = m[1] ** 3
n.backward(gradient=torch.Tensor([1,1]), retain_graph=True)
print(m.grad)

結(jié)果為：

tensor([ 4., 27.])

如果使用n.backward()的話，那么就會報(bào)如下的錯(cuò)：RuntimeError: grad can be implicitly created only for scalar outputs

注意：這里的gradient的維度必須與n的維度相同。其中的原理如下：

在執(zhí)行z.backward(gradient)的時(shí)候，如果z不是一個(gè)標(biāo)量，那么先構(gòu)造一個(gè)標(biāo)量的值：L = torch.sum(z*gradient)，再計(jì)算關(guān)于L對各個(gè)leaf Variable的梯度。