基于Keras中Conv1D和Conv2D的區(qū)別說(shuō)明

更新時(shí)間：2020年06月19日 15:07:17 作者：哈哈進(jìn)步

這篇文章主要介紹了基于Keras中Conv1D和Conv2D的區(qū)別說(shuō)明，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧

如有錯(cuò)誤，歡迎斧正。

我的答案是，在Conv2D輸入通道為1的情況下，二者是沒(méi)有區(qū)別或者說(shuō)是可以相互轉(zhuǎn)化的。首先，二者調(diào)用的最后的代碼都是后端代碼（以TensorFlow為例，在tensorflow_backend.py里面可以找到）：

x = tf.nn.convolution(
 input=x,
 filter=kernel,
 dilation_rate=(dilation_rate,),
 strides=(strides,),
 padding=padding,
 data_format=tf_data_format)

區(qū)別在于input和filter傳遞的參數(shù)不同，input不必說(shuō)，filter=kernel是什么呢？

我們進(jìn)入Conv1D和Conv2D的源代碼看一下。他們的代碼位于layers/convolutional.py里面，二者繼承的都是基類(lèi)_Conv(Layer)。

進(jìn)入_Conv類(lèi)查看代碼可以發(fā)覺(jué)以下代碼：

self.kernel_size = conv_utils.normalize_tuple(kernel_size, rank, 'kernel_size')
……#中間代碼省略
input_dim = input_shape[channel_axis]
kernel_shape = self.kernel_size + (input_dim, self.filters)

我們假設(shè)，Conv1D的input的大小是（600,300），而Conv2D的input大小是（m,n,1），二者kernel_size為3。

進(jìn)入conv_utils.normalize_tuple函數(shù)可以看到：

def normalize_tuple(value, n, name):
 """Transforms a single int or iterable of ints into an int tuple.
 # Arguments
 value: The value to validate and convert. Could an int, or any iterable
  of ints.
 n: The size of the tuple to be returned.
 name: The name of the argument being validated, e.g. "strides" or
  "kernel_size". This is only used to format error messages.
 # Returns
 A tuple of n integers.
 # Raises
 ValueError: If something else than an int/long or iterable thereof was
 passed.
 """
 if isinstance(value, int):
 return (value,) * n
 else:
 try:
  value_tuple = tuple(value)
 except TypeError:
  raise ValueError('The `' + name + '` argument must be a tuple of ' +
    str(n) + ' integers. Received: ' + str(value))
 if len(value_tuple) != n:
  raise ValueError('The `' + name + '` argument must be a tuple of ' +
    str(n) + ' integers. Received: ' + str(value))
 for single_value in value_tuple:
  try:
  int(single_value)
  except ValueError:
  raise ValueError('The `' + name + '` argument must be a tuple of ' +
     str(n) + ' integers. Received: ' + str(value) + ' '
     'including element ' + str(single_value) + ' of type' +
     ' ' + str(type(single_value)))
 return value_tuple

所以上述代碼得到的kernel_size是kernel的實(shí)際大小，根據(jù)rank進(jìn)行計(jì)算，Conv1D的rank為1，Conv2D的rank為2，如果是Conv1D，那么得到的kernel_size就是（3,）如果是Conv2D，那么得到的是（3,3）

input_dim = input_shape[channel_axis] kernel_shape = self.kernel_size + (input_dim, self.filters)

又因?yàn)橐陨系膇nputdim是最后一維大小(Conv1D中為300，Conv2D中為1），filter數(shù)目我們假設(shè)二者都是64個(gè)卷積核。

因此，Conv1D的kernel的shape實(shí)際為：

（3,300,64）

而Conv2D的kernel的shape實(shí)際為：

（3,3,1,64）

剛才我們假設(shè)的是傳參的時(shí)候kernel_size=3，如果，我們將傳參Conv2D時(shí)使用的的kernel_size設(shè)置為自己的元組例如（3,300），那么傳根據(jù)conv_utils.normalize_tuple函數(shù)，最后的kernel_size會(huì)返回我們自己設(shè)置的元組，也即（3,300）那么Conv2D的實(shí)際shape是：

（3,300,1,64），也即這個(gè)時(shí)候的Conv1D的大小reshape一下得到，二者等價(jià)。

換句話說(shuō)，Conv1D（kernel_size=3）實(shí)際就是Conv2D（kernel_size=（3,300）），當(dāng)然必須把輸入也reshape成（600,300,1），即可在多行上進(jìn)行Conv2D卷積。

這也可以解釋?zhuān)瑸槭裁丛贙eras中使用Conv1D可以進(jìn)行自然語(yǔ)言處理，因?yàn)樵谧匀徽Z(yǔ)言處理中，我們假設(shè)一個(gè)序列是600個(gè)單詞，每個(gè)單詞的詞向量是300維，那么一個(gè)序列輸入到網(wǎng)絡(luò)中就是（600,300），當(dāng)我使用Conv1D進(jìn)行卷積的時(shí)候，實(shí)際上就完成了直接在序列上的卷積，卷積的時(shí)候?qū)嶋H是以（3,300）進(jìn)行卷積，又因?yàn)槊恳恍卸际且粋€(gè)詞向量，因此使用Conv1D（kernel_size=3）也就相當(dāng)于使用神經(jīng)網(wǎng)絡(luò)進(jìn)行了n_gram=3的特征提取了。

這也是為什么使用卷積神經(jīng)網(wǎng)絡(luò)處理文本會(huì)非?？焖儆行У膬?nèi)涵。

補(bǔ)充知識(shí)：Conv1D、Conv2D、Conv3D

由于計(jì)算機(jī)視覺(jué)的大紅大紫，二維卷積的用處范圍最廣。因此本文首先介紹二維卷積，之后再介紹一維卷積與三維卷積的具體流程，并描述其各自的具體應(yīng)用。

1. 二維卷積