論文提出NASH方法來進行神經網絡結構搜索，核心思想與之前的EAS方法類似，使用網絡態射來生成一系列效果一致且繼承權重的複雜子網，本文的網絡態射更豐富，而且僅需要簡單的爬山算法輔助就可以完成搜索，耗時0.5GPU day

來源：曉飛的算法工程筆記公眾號

論文: Simple And Efficient Architecture Search for Convolutional Neural Networks

論文地址：https://arxiv.org/pdf/1711.04528.pdf

Introduction

論文目標在於大量減少網絡搜索的計算量並保持結果的高性能，核心思想與EAS算法類似，主要貢獻如下：

提供baseline方法，隨機構造網絡並配合SGDR進行訓練，在CIFAR-10上能達到6%-7%的錯誤率，高於大部分NAS方法。
拓展了EAS在網絡態射(network morphisms)上的研究，能夠提供流行的網絡構造block，比如skip connection和BN。
提出基於爬山算法的神經網絡結構搜索NASH，該方法迭代地進行網絡搜索，在每次迭代中，對當前網絡使用一系列網絡態射得到多個新網絡，然後使用餘弦退火進行快速優化，最終得到性能更好的新網絡。在CIFAR-10上，NASH僅需要單卡12小時就可以達到baseline的準確率。

Network Morphism

$\mathcal{N}(\mathcal{X})$為$\mathcal{X}\in \mathbb{R}^n$上的一系列網絡，網絡態射(network morphism)為映射$M: \mathcal{N}(\mathcal{X}) \times \mathbb{R}^k \to \mathcal{N}(\mathcal{X}) \times \mathbb{R}^j$，從參數為$w\in \mathbb{R}^{k$的網絡$f}w \in \mathcal{N}(\mathcal{X})$轉換為參數為$\tilde{w} \in \mathbb{R}^{j$的網絡$g}\tilde{w} \in \mathcal{N}(\mathcal{X})$，並且滿足公式1，即對於相同的輸入，網絡的輸出不變。

下面給出幾種標準網絡結構的網絡態射例子：

Network morphism Type I

將$f^w$進行公式2的替換，$\tilde{w}=(w_i, C, d)$，為了滿足公式1，設定$A=1$和$b=0$，可用於添加全連接層。

另外一種複雜點的策略如公式3，$\tilde{w}=(w_i, C, d)$，設定$C=A^{-1}$和$d=-Cb$，可用於表達BN層，其中$A$和$b$表示統計結構，$C$和$d$為可學習的$\gamma$和$\beta$。

Network morphism Type II

假設$f_i^{{w_i}$可由任何函數$h$表示，即$f_i}{w_i}=Ah^{w_h}(x)+b$

則可以將$f^w$，$w_i = (w_h, A, b)$配合任意函數$\tilde{h}^{{w_{\tilde{h}}}(x)$根據公式4替換為$\tilde{f}}{\tilde{w}i}$，$\tilde{w}=(w_i, w{\tilde{h}}, \tilde{A})$，設定$\tilde{A}=0$。這個態射可以表示為兩種結構：

增加層寬度，將$h(x)$想象為待拓寬的層，設定$\tilde{h}=h$則可以增加兩倍的層寬度。
concatenation型的skip connection，假設$h(x)$本身就是一系列層操作$h(x)=h_n(x) \circ \cdots \circ h_0(x)$，設定$\tilde{h}(x)=x$來實現短路連接。

Network morphism Type III

任何冪等的函數$f_i^{w_i}$都可以通過公式5進行替換，初始化$\tilde{w}_i=w_i$，公式5在無權重的冪等函數上也成立，比如ReLU。

Network morphism Type IV

任何層$f_i^{w_i}$都可以配合任意函數$h$進行公式6的替換，初始化$\lambda=1$，可用於結合任意函數，特別是非線性函數，也可以用於加入additive型的skip connection。
此外，不同的網絡態射組合也可以產生新的態射，比如可以通過公式2、3和5在ReLU層後面插入”Conv-BatchNorm-Relu”的網絡結構。

Architecture Search by Network Morphisms

NASH方法基於爬山算法，先從小網絡開始，對其進行網絡態射生成更大的子網絡，由於公式1的約束，子網的性能與原網絡是一樣的，後續子網進行簡單的訓練看是否有更好的性能，最後選擇性能優異的子網進行重複的操作。

圖1可視化了NASH方法的一個step，算法1的ApplyNetMorph(model, n)包含n個網絡態射操作，每個為以下方法的隨機一種：

加深網絡，例如添加Conv-BatchNorm-Relu模塊，插入位置和卷積核大小都是隨機的，channel數量跟最近的卷積操作一致。
加寬網絡，例如使用network morphism type II來加寬輸出的channel，加寬比例隨機。
添加從層$i$到層$j$的skup connection，使用network morphism type II或IV，插入位置均隨機選擇。

由於使用了網絡態射，子網繼承了原網絡的權重且性能一致，NASH方法優勢在於能夠很快的評估子網的性能，論文使用了簡單的爬山算法，當然也可以選擇其它的優化策略。

Experiments

Baslines

Retraining from Scratch

CIFAR-10

CIFAR-100

CONCLUSION

論文提出NASH方法來進行神經網絡結構搜索，核心思想與之前的EAS方法類似，使用網絡態射來生成一系列效果一致且繼承權重的複雜子網，本文的網絡態射更豐富，而且僅需要簡單的爬山算法輔助就可以完成搜索，耗時0.5GPU day

如果本文對你有幫助，麻煩點個贊或在看唄～
更多內容請關注微信公眾號【曉飛的算法工程筆記】

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※為什麼 USB CONNECTOR 是電子產業重要的元件?

※網頁設計一頭霧水該從何著手呢? 台北網頁設計公司幫您輕鬆架站!

※台北網頁設計公司全省服務真心推薦

※想知道最厲害的網頁設計公司"嚨底家"!

※推薦評價好的iphone維修中心