Vés al contingut

Cerca d'arquitectura neuronal

De la Viquipèdia, l'enciclopèdia lliure
Esquema que mostra com es pot adaptar el principi base de l'aprenentatge per reforç per dur a terme la cerca d'arquitectura neuronal.

La cerca d'arquitectura neuronal (amb acrònim anglès NAS) [1][2] és una tècnica per automatitzar el disseny de xarxes neuronals artificials (ANN), un model molt utilitzat en el camp de l'aprenentatge automàtic. El NAS s'ha utilitzat per dissenyar xarxes que tenen un rendiment igual o superior a les arquitectures dissenyades a mà.[3][4] Els mètodes per a NAS es poden classificar segons l'espai de cerca, l'estratègia de cerca i l'estratègia d'estimació del rendiment utilitzats:[1]

  • L'espai de cerca defineix els tipus d'ANN que es poden dissenyar i optimitzar.
  • L'estratègia de cerca defineix l'enfocament utilitzat per explorar l'espai de cerca.
  • L'estratègia d'estimació del rendiment avalua el rendiment d'una possible ANN des del seu disseny (sense construir-la i entrenar-la).

El NAS està estretament relacionat amb l'optimització d'hiperparàmetres [5] i el meta-aprenentatge [6] i és un subcamp de l'aprenentatge automàtic automàtic (AutoML).

L'aprenentatge de reforç (RL) pot apuntalar una estratègia de cerca NAS. Barret Zoph i Quoc Viet Le [7] van aplicar NAS amb RL dirigit al conjunt de dades CIFAR-10 i van aconseguir una arquitectura de xarxa que rivalitza amb la millor arquitectura dissenyada manualment per a la precisió, amb una taxa d'error de 3,65, 0,09 per cent millor i 1,05 vegades més ràpid que un model relacionat dissenyat a mà. Al conjunt de dades de Penn Treebank, aquest model va compondre una cel·la recurrent que superava LSTM, arribant a una perplexitat del conjunt de prova de 62,4 o 3,6 perplexitat millor que el sistema líder anterior. A la tasca de modelització de llenguatge de caràcters PTB va aconseguir bits per caràcter de 1.214.[8]

Aprendre una arquitectura de model directament en un conjunt de dades gran pot ser un procés llarg. NASNet [9] va abordar aquest problema transferint un bloc dissenyat per a un conjunt de dades petit a un conjunt de dades més gran. El disseny es va limitar a utilitzar dos tipus de cel·les convolucionals per retornar mapes de característiques que compleixen dues funcions principals en convolucionar un mapa de característiques d'entrada: cel·les normals que retornen mapes de la mateixa extensió (alçada i amplada) i cel·les de reducció en què el mapa de característiques retornat. l'alçada i l'amplada es redueixen en un factor de dos. Per a la cel·la de reducció, l'operació inicial aplicada a les entrades de la cel·la utilitza un pas de dos (per reduir l'alçada i l'amplada).[10] L'aspecte après del disseny incloïa elements com ara quina o quines capes inferiors va prendre cada capa superior com a entrada, les transformacions aplicades a aquesta capa i fusionar múltiples sortides a cada capa. En l'exemple estudiat, la millor capa convolucional (o "cel·la") es va dissenyar per al conjunt de dades CIFAR-10 i després es va aplicar al conjunt de dades ImageNet apilant còpies d'aquesta cel·la, cadascuna amb els seus propis paràmetres. L'enfocament va obtenir una precisió del 82,7% del top-1 i del 96,2% del top-5. Això va superar les millors arquitectures inventades pels humans amb un cost de 9.000 milions de FLOPS menys, una reducció del 28%. El sistema va continuar superant l'alternativa dissenyada manualment a diferents nivells de càlcul. Les característiques de la imatge apreses de la classificació d'imatges es poden transferir a altres problemes de visió per ordinador. Per exemple, per a la detecció d'objectes, les cèl·lules apreses integrades amb el marc Faster-RCNN van millorar el rendiment en un 4,0% al conjunt de dades COCO.[11]

A l'anomenada Eficient Neural Architecture Search (ENAS), un controlador descobreix arquitectures aprenent a buscar un subgraf òptim dins d'un gràfic gran. El controlador està entrenat amb un gradient de política per seleccionar un subgràfic que maximitzi la recompensa esperada del conjunt de validació. El model corresponent al subgraf s'entrena per minimitzar una pèrdua d'entropia creuada canònica. Diversos models secundaris comparteixen paràmetres, ENAS requereix menys hores de GPU que altres enfocaments i 1000 vegades menys que el NAS "estàndard". A CIFAR-10, el disseny ENAS va aconseguir un error de prova del 2,89%, comparable a NASNet. A Penn Treebank, el disseny ENAS va assolir una perplexitat de prova de 55,8.[12]


Referències[modifica]

  1. 1,0 1,1 Elsken, Thomas; Metzen, Jan Hendrik; Hutter, Frank Journal of Machine Learning Research, 20, 55, August 8, 2019, pàg. 1–21. arXiv: 1808.05377. Bibcode: 2018arXiv180805377E.
  2. A Survey on Neural Architecture Search. 
  3. Neural Architecture Search with Reinforcement Learning. 
  4. Learning Transferable Architectures for Scalable Image Recognition. 
  5. Matthias Feurer and Frank Hutter. Hyperparameter optimization. In: AutoML: Methods, Systems, Challenges, pages 3–38.
  6. Vanschoren, Joaquin. «Meta-Learning». A: Automated Machine Learning (en anglès), 2019, p. 35–61 (The Springer Series on Challenges in Machine Learning). DOI 10.1007/978-3-030-05318-5_2. ISBN 978-3-030-05317-8. 
  7. Learning Transferable Architectures for Scalable Image Recognition. 
  8. Neural Architecture Search with Reinforcement Learning. 
  9. ; Vasudevan, Vijay; Shlens, Jonathon; Le, Quoc V. «AutoML for large scale image classification and object detection» (en anglès). , November 2, 2017.
  10. Learning Transferable Architectures for Scalable Image Recognition. 
  11. Learning Transferable Architectures for Scalable Image Recognition. 
  12. Efficient Neural Architecture Search via Parameter Sharing.