F.conv2d?pytorch卷積計算方式

更新時間：2023年02月21日 09:39:34 作者：wanghua609

這篇文章主要介紹了F.conv2d?pytorch卷積計算方式，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教

F.conv2d pytorch卷積計算

Pytorch里一般小寫的都是函數(shù)式的接口，相應(yīng)的大寫的是類式接口。

函數(shù)式的更加low-level一些，如果不需要做特別復(fù)雜的配置只需要用類式接口就夠了。

可以這樣理解

nn.Conved是2D卷積層，而F.conv2d是2D卷積操作。

import torch
from torch.nn import functional as F
 
"""手動定義卷積核(weight)和偏置"""
w = torch.rand(16, 3, 5, 5)  # 16種3通道的5乘5卷積核
b = torch.rand(16)  # 和卷積核種類數(shù)保持一致(不同通道共用一個bias)
 
"""定義輸入樣本"""
x = torch.randn(1, 3, 28, 28)  # 1張3通道的28乘28的圖像
 
"""2D卷積得到輸出"""
out = F.conv2d(x, w, b, stride=1, padding=1)  # 步長為1,外加1圈padding,即上下左右各補了1圈的0,
print(out.shape)
 
out = F.conv2d(x, w, b, stride=2, padding=2)  # 步長為2,外加2圈padding
print(out.shape)
out = F.conv2d(x, w)  # 步長為1,默認不padding, 不夠的舍棄，所以對于28*28的圖片來說，算完之后變成了24*24
print(out.shape)

在DSSINet發(fā)現(xiàn)又用到了空洞卷積dilated convolution

mu1 = F.conv2d(img1, window , padding=padd, dilation=dilation, groups=channel)

Dilated/Atrous convolution或者是convolution with holes從字面上就很好理解，是在標(biāo)準的convolution map里注入空洞，以此來增加感受野reception field。

相比原來的正常卷積，空洞卷積多了一個超參數(shù)dilation rate,指的是kernel的間隔數(shù)量（正常的卷積是dilation rate=1)

正常圖像的卷積為

空洞卷積為

現(xiàn)在我們再來看下卷積本身，并了解他背后的設(shè)計直覺，以下主要探討空洞卷積在語義分割(semantic segmentation)的應(yīng)用。

卷積的主要問題

1、up-sampling/pooling layer(e.g. bilinear interpolation) is deterministic(not learnable)

2、內(nèi)部數(shù)據(jù)結(jié)構(gòu)丟失，空間層級化信息丟失。

3、小物體信息無法重建（假設(shè)有4個pooling layer,則任何小于2^4=16 pixel的物體信息將理論上無法重建）

在這樣問題的存在下，語義分割問題一直處于瓶頸期無法再明顯提高精度，而dilated convolution 的設(shè)計就良好的避免了這些問題。

對于dilated convolution,我們已經(jīng)可以發(fā)現(xiàn)他的優(yōu)點，即內(nèi)部數(shù)據(jù)結(jié)構(gòu)的保留和避免使用down_sampling這樣的特性。但是完全基于dilated convolution的結(jié)構(gòu)如何設(shè)計則是一個新的問題。

pytorch中空洞卷積分為兩類，一類是正常圖像的卷積，另一類是池化時候。

空洞卷積的目的是為了在擴大感受野的同時，不降低圖片分辨率和不引入額外參數(shù)及計算量（一般在CNN中擴大感受野都需要使用S》1的conv或者pooling,導(dǎo)致分辨率降低，不利于segmentation,如果使用大卷積核，確實可以達到增大感受野，但是會引入額外的參數(shù)及計算量）。

F.Conv2d和nn.Conv2d

import torch
import torch.nn.functional as F
# 小括號里面有幾個[]就代表是幾維數(shù)據(jù)
input = torch.tensor([[1,2,0,3,1],
                      [0,1,2,3,1],
                      [1,2,1,0,0],
                      [5,2,3,1,1],
                      [2,1,0,1,1]])

kernel = torch.tensor([[1,2,1],
                       [0,1,0],
                       [2,1,0]])

input = torch.reshape(input,(1,1,5,5))
kernel = torch.reshape(kernel,(1,1,3,3))

# stride代表的是步長的意思，即每次卷積核向左或者向下移動多少步進行相乘
#  因為conv2d的input和weight對應(yīng)的tensor是[batch,channel,h,w],所以上述才將它們進行reshape
output = F.conv2d(input,kernel,stride=1)
print(output)

output = F.conv2d(input,kernel,stride=2)
print(output)

# padding代表的是向上下左右填充的行列數(shù)，里面數(shù)字填寫0
output3 = F.conv2d(input,kernel,stride=1,padding=1)
print(output3)

import torch
import torchvision
from torch.utils.data import DataLoader
from torch import nn
from torch.nn import Conv2d
from torch.utils.tensorboard import SummaryWriter

dataset = torchvision.datasets.CIFAR10('./torchvision_dataset', train=False, download=False,
                                       transform=torchvision.transforms.ToTensor())

# 準備好數(shù)據(jù)集就放在dataloader中進行加載
dataloader = DataLoader(dataset, batch_size=64)


# 開始定義一個卷積類
class Zkl(nn.Module):
    def __init__(self):
        super(Zkl, self).__init__()
        self.conv1 = Conv2d(in_channels=3, out_channels=6, kernel_size=3, stride=1, padding=0)

    def forward(self,x):
        x = self.conv1(x)
        return x

writer = SummaryWriter("nn_conv2d")
zkl = Zkl()
# print(zkl)
step = 0
for data in dataloader:
    imgs,target = data
    output = zkl(imgs)
    #print(imgs.shape)
    #print(output.shape)
    writer.add_images('nn_conv2d_input',imgs,step)
    #因為輸出是6個通道，tensorboard無法解析，所以需要reshape三個通道
    output = torch.reshape(output,(-1,3,30,30))
    writer.add_images('nn_conv2d_output',output,step)
    step+=1
writer.close()