18禁黄网站男男禁片免费观看,国产亚洲A∨片在线观看,亚洲欧美日韩国产综合一区二区

構建一個相對較小的圖像識別卷積神經網絡

發(fā)布日期： 2018-12-19 瀏覽次數： 1,172

今天的文章是有關 “高級卷積神經” 的教程。我們希望您能夠以本文為起點，在 TensorFlow 上構建更大的 CNN 來處理視覺任務。

概述

CIFAR-10 分類問題是機器學習領域一種常見的基準問題，其任務是將 RGB 32x32 像素的圖像分為以下 10 類：

airplane, automobile, bird, cat, deer, dog, frog, horse, ship, and truck.

有關詳情，請參閱 CIFAR-10 頁面（https://www.cs.toronto.edu/~kriz/cifar.html）及 Alex Krizhevsky 發(fā)表的一篇技術報告（https://tensorflow.google.cn/tutorials/images/deep_cnn?hl=zh-CN）。

目標

本文的目標是構建一個相對較小的圖像識別卷積神經網絡 (CNN)。在此過程中，本文將：

重點介紹網絡架構、訓練和評估的規(guī)范結構

提供一個用于構建更大、更為復雜的模型的模板

選擇 CIFAR-10 的原因是它足夠復雜，可以用來練習 TensorFlow 的大部分功能，進而擴展到大型模型。同時，該模型足夠小，可以快速訓練，是嘗試新想法以及實驗新技術的理想之選。

本文的要點

CIFAR-10 教程介紹了幾個用于在 TensorFlow 中設計更大、更為復雜的模型的重要結構：

核心數學組件，包括卷積（維基百科頁面）、修正線性激活函數（維基百科頁面）、最大池化（維基百科頁面）和局部響應歸一化（AlexNet 論文的第 3.3 節(jié)）

訓練期間網絡活動（包括輸入圖像、損失以及激活函數和梯度的分布）的可視化

例行程序，用于計算已學參數的移動平均值，并在評估期間使用這些平均值提升預測性能

實施學習速率計劃（隨時間的推移系統(tǒng)性地降低）

輸入數據的預取隊列，使模型避開磁盤延遲和代價高的圖像預處理過程

此外，我們還提供了模型的多 GPU 版本，它會展示：

如何配置模型以跨多個 GPU 卡并行訓練

如何在多個 GPU 間共享和更新變量

模型架構

本 CIFAR-10 教程中的模型是一個多層架構，由卷積層和非線性層交替排列后構成。這些層后面是全連接層，然后通向 softmax 分類器。該模型除了最頂部的幾層外，基本跟 Alex Krizhevsky 描述的模型架構一致。

在 GPU 上經過幾個小時的訓練后，該模型的準確率達到峰值（約 86%）。詳情請參閱下文和相應代碼。模型中包含 1068298 個可學習參數，對一張圖像進行推理計算大約需要 1950 萬個乘加操作。

代碼結構

本教程使用的代碼位于 models/tutorials/image/cifar10/ 中。

CIFAR-10 模型

CIFAR-10 網絡主要包含在 cifar10.py 中。完整的訓練圖大約包含 765 個操作。我們發(fā)現(xiàn)，使用以下模塊構建訓練圖可最大限度地提高代碼的重復使用率：

模型輸入：inputs() 和 distorted_inputs() 分別可添加讀取和預處理 CIFAR 圖像以用于評估和訓練的操作

模型預測：inference() 可添加對提供的圖像進行推理（即分類）的操作

模型訓練：loss() 和 train() 可添加計算損失和梯度、更新變量和呈現(xiàn)可視化匯總的操作

模型輸入

模型的輸入部分由 inputs() 和 distorted_inputs() 函數構建，這兩種函數會從 CIFAR-10 二進制數據文件中讀取圖像。這些文件包含字節(jié)長度固定的記錄，因此我們可以使用 tf.FixedLengthRecordReader。如需詳細了解 Reader 類的工作原理，請參閱讀取數據（https://tensorflow.google.cn/api_guides/python/reading_data?hl=zh-CN#reading-from-files）。

圖像按以下方式處理：

從中心（用于評估）或隨機（用于訓練）剪裁成 24 x 24 像素

進行近似白化處理，使模型對圖像的動態(tài)范圍變化不敏感

對于訓練，我們還會額外向圖像應用一系列隨機失真，以人為增加數據集的大?。?/p>

從左到右隨機翻轉圖像

隨機對圖像亮度進行失真處理

隨機對圖像對比度進行失真處理

要查看可采用的失真列表，請訪問圖像頁面（https://tensorflow.google.cn/api_guides/python/image?hl=zh-CN）。此外，我們還向圖像附加了 tf.summary.image，以便在 TensorBoard 中可視化它們。這對驗證輸入的構建是否正確十分有用。

從磁盤讀取圖像并進行失真處理需要不少時間。為了防止這些操作影響訓練速度，我們在 16 個獨立的線程中執(zhí)行這些操作，而這些線程會不斷填充一個 TensorFlow 隊列。

模型預測

模型的預測部分由 inference() 函數構建，該函數可添加計算預測對數的操作。模型這一部分的結構如下：

下圖是從 TensorBoard 生成的圖表，描述了推理操作的過程：

練習：inference 的輸出為非歸一化對數。請嘗試使用 tf.nn.softmax 修改網絡架構以返回歸一化預測結果。

inputs() 和 inference() 函數提供了評估模型所需的所有組件。我們現(xiàn)在將重點轉向構建訓練模型所需的操作。

練習：inference() 中的模型架構與 cuda-convnet 中指定的 CIFAR-10 模型的架構略有不同。具體而言，Alex 的初始模型的頂層是局部連接層，而非全連接層。請嘗試修改架構以在頂層中完全重現(xiàn)局部連接層。

模型訓練

訓練網絡執(zhí)行 N 元分類的常用方法是多項邏輯回歸（又稱 Softmax 回歸）。Softmax 回歸向網絡輸出應用 Softmax 非線性函數，并計算歸一化預測與標簽索引之間的交叉熵。在正則化過程中，我們還會對所有已學變量應用常見的權重衰減損失。模型的目標函數是求交叉熵損失和所有權重衰減項的和并由 loss() 函數返回。

我們通過 tf.summary.scalar 在 TensorBoard 中對其進行可視化：

我們使用標準的梯度下降法訓練模型（有關其他方法，請參閱訓練 https://github.com/tensorflow/docs/tree/master/site/en/api_guides/python），其中學習速率隨時間的推移呈指數級衰減。

train() 函數會添加一些最小化目標所需的操作，包括計算梯度、更新學習變量（詳情請參閱 tf.train.GradientDescentOptimizer https://tensorflow.google.cn/api_docs/python/tf/train/GradientDescentOptimizer?hl=zh-CN）。它會返回一項用以對一批圖像執(zhí)行所有計算的操作，以便訓練并更新模型。

啟動并訓練模型

我們已構建了模型，現(xiàn)在使用腳本 cifar10_train.py 啟動該模型并執(zhí)行訓練操作。

python cifar10_train.py

注意：首次運行 CIFAR-10 教程中的任何目標時，系統(tǒng)都會自動下載 CIFAR-10 數據集。該數據集大約為 160MB，因此首次運行時您可以喝杯咖啡小棲一會。

您應該會看到以下輸出：

Filling queue with 20000 CIFAR images before starting to train. This will take a few minutes.

2015-11-04 11:45:45.927302: step 0, loss = 4.68 (2.0 examples/sec; 64.221 sec/batch)2015-11-04 11:45:49.133065: step 10, loss = 4.66 (533.8 examples/sec; 0.240 sec/batch)2015-11-04 11:45:51.397710: step 20, loss = 4.64 (597.4 examples/sec; 0.214 sec/batch)2015-11-04 11:45:54.446850: step 30, loss = 4.62 (391.0 examples/sec; 0.327 sec/batch)2015-11-04 11:45:57.152676: step 40, loss = 4.61 (430.2 examples/sec; 0.298 sec/batch)2015-11-04 11:46:00.437717: step 50, loss = 4.59 (406.4 examples/sec; 0.315 sec/batch)...

該腳本每隔 10 步報告一次總損失值及最后一批數據的處理速度。需要注意以下幾點：

第一批數據的處理速度可能會非常慢（例如，需要幾分鐘），因為預處理線程需要將 20000 張?zhí)幚磉^的 CIFAR 圖像填充到隨機化處理隊列中

報告的損失是最近一批數據的平均損失。請注意，該損失是交叉熵和所有權重衰減項的和

請留意一批數據的處理速度。上述數字是在 Tesla K40c 上得出的結果。如果您是在 CPU 上運行，速度可能會慢些

練習：進行實驗時，有時候第一個訓練步持續(xù)時間比較長。請嘗試減少最初填充隊列的圖像數量。在cifar10_input.py 中搜索 min_fraction_of_examples_in_queue。

cifar10_train.py 會定期將所有模型參數保存在檢查點文件中，但不會對模型進行評估。cifar10_eval.py 將使用檢查點文件衡量預測性能（請參閱下文中的評估模型部分）。

如果您按照上述步驟進行操作，那么現(xiàn)在已開始訓練 CIFAR-10 模型了。恭喜！

cifar10_train.py 返回的終端文本幾乎不提供任何有關模型訓練情況的信息。我們希望在訓練期間更深入地了解模型的以下信息：

損失是真的在減小，還是只是噪點？

為模型提供的圖像是否合適？

梯度、激活函數和權重的值是否合理？

當前的學習速率是多少？

TensorBoard 可提供此功能，它會通過 tf.summary.FileWriter 顯示定期從 cifar10_train.py 導出的數據。

例如，我們可以觀看 local3 特征中激活函數的分步及稀疏程度在訓練過程中的變化情況：

跟蹤各個損失函數以及總損失在不同時間段的情況尤為有用。不過，由于訓練所用的批次較小，因此損失中夾雜的噪點相當多。在實踐中，我們發(fā)現(xiàn)除了原始值之外，可視化損失的移動平均值也非常有用。了解腳本如何將tf.train.ExponentialMovingAverage 用于此用途。

評估模型

現(xiàn)在，我們來評估一下經過訓練的模型在保留數據集上的表現(xiàn)如何。該模型由腳本 cifar10_eval.py 進行評估。它通過inference() 函數構建模型，并使用 CIFAR-10 評估數據集中的全部 10000 張圖像。它會計算 precision @ 1，表示得分最高的一項預測與圖像的真實標簽一致的頻率。

為了監(jiān)控模型在訓練過程中的改進情況，評估腳本會定期在 cifar10_train.py 創(chuàng)建的最新檢查點文件上運行。

python cifar10_eval.py

注意不要在同一 GPU 上同時運行評估和訓練二進制文件，否則可能會耗盡內存。您可以考慮在其他 GPU（如可用）上單獨運行評估二進制文件，或在同一 GPU 上運行評估二進制文件時暫停訓練二進制文件的運行。

您應該會看到以下輸出：

2015-11-06 08:30:44.391206: precision @ 1 = 0.860...

該腳本只是定期返回 precision @ 1，在本例中，返回的準確率為 86%。cifar10_eval.py 還會導出可以在 TensorBoard 中可視化的匯總。在評估期間，您可通過這些匯總進一步了解模型。

訓練腳本會計算所有已學變量的移動平均值。評估腳本會將所有已學模型參數替換為移動平均值。這種替換可以在評估時提升模型的性能。

練習：根據 precision @ 1，采用平均參數可以使預測性能提升 3% 左右。修改 cifar10_eval.py，使模型不采用平均參數，然后驗證預測性能是否會下降。

使用多個 GPU 卡訓練模型

現(xiàn)代工作站可能會包含多個用于科學計算的 GPU。TensorFlow 可利用此環(huán)境在多個卡上同時運行訓練操作。

如果要以并行的分布式方式訓練模型，則需要協(xié)調訓練過程。在接下來的內容中，術語 “模型副本” 指在數據子集上訓練的模型副本。

簡單地采用模型參數異步更新方法會導致訓練性能無法達到最佳，因為單個模型副本在訓練時使用的可能是過時的模型參數。反之，如果采用完全同步的更新后參數，其速度堪比最慢的模型副本。

在具有多個 GPU 卡的工作站中，每個 GPU 的速度大致相當，且具有足夠的內存來運行整個 CIFAR-10 模型。因此，我們選擇按照以下方式設計訓練系統(tǒng)：

在每個 GPU 上放一個模型副本

等待所有 GPU 完成一批數據的處理工作，然后同步更新模型參數

模型示意圖如下所示：

請注意，每個 GPU 都會針對一批唯一的數據計算推理和梯度。這種設置可以有效地將一大批數據劃分到各個 GPU 上。

這種設置要求所有 GPU 都共享模型參數。眾所周知，將數據傳輸到 GPU 或從中向外傳輸數據的速度非常慢。因此，我們決定在 CPU 上存儲和更新所有模型參數（如綠色方框所示）。當所有 GPU 均處理完一批新數據時，系統(tǒng)會將一組全新的模型參數傳輸給相應 GPU。

GPU 會同步運行。GPU 的所有梯度將累積并求平均值（如綠色方框所示）。模型參數會更新為所有模型副本的梯度平均值。

將變量和操作放到多個設備上

將操作和變量放到多個設備上需要一些特殊的抽象操作。

第一個抽象操作是計算單個模型副本的推理和梯度的函數。在代碼中，我們將此抽象操作稱為 “tower”。我們必須為每個 tower 設置兩個屬性：

tower 中所有操作的唯一名稱。 tf.name_scope 通過添加作用域前綴提供唯一的名稱。例如，第一個 tower 中的所有操作都會附帶 tower_0 前綴，例如 tower_0/conv1/Conv2D

運行 tower 中操作的首選硬件設備。 tf.device 會指定該屬性。例如，第一個 tower 中的所有操作都位于device('/device:GPU:0') 作用域內，表示它們應在第一個 GPU 上運行

為了在多 GPU 版本中共享變量，所有變量都固定到 CPU 上且通過 tf.get_variable 訪問。了解如何共享變量。

在多個 GPU 卡上啟動并訓練模型

如果計算機上安裝了多個 GPU 卡，您可以使用 cifar10_multi_gpu_train.py 腳本借助它們加快模型的訓練過程。此版訓練腳本可在多個 GPU 卡上并行訓練模型。

python cifar10_multi_gpu_train.py --num_gpus=2

請注意，使用的 GPU 卡數量默認為 1。此外，如果計算機上僅有一個 GPU，則所有計算都會在該 GPU 上運行，即使您設置的是多個 GPU。

練習：cifar10_train.py 的默認設置是在大小為 128 的批次數據上運行。請嘗試在 2 個 GPU 上運行cifar10_multi_gpu_train.py，批次大小為 64，然后比較這兩種方式的訓練速度。

后續(xù)學習計劃

如果您有興趣開發(fā)并訓練您自己的圖像分類系統(tǒng)，我們建議您分叉本教程的代碼，并替換組件以解決您的圖像分類問題。

練習：下載 Street View House Numbers (SVHN) 數據集（http://ufldl.stanford.edu/housenumbers/）。分叉 CIFAR-10 教程的代碼并將輸入數據替換為 SVHN。嘗試調整網絡架構以提高預測性能。

·上一篇: 三大運營商在5G終端方面的計劃全部出臺
·下一篇: 集成電路產業(yè)“返祖” 芯片設計廠必須考慮新三

其他關聯(lián)資訊

MOS管發(fā)熱原因分析

2021-08-20

為何設計可靠電源時應考慮真實電壓源

2021-12-18

分享MOS管拆裝保養(yǎng)的攻略

2018-11-10

上半年古鎮(zhèn)燈飾價格指數變化：光源產品價格大

2016-07-08

PCB設計中如何設置跳線

2023-10-07