Umělá neuronová síť
An umělý nervový propojit (Ann), také volal simulovaná neuronová síť (SNN) nebo obyčejně spravedlivý neuronová síť (NN) je propojená skupina umělý neurons to používá matematický nebo výpočetní model pro zpracování informací založené na connectionist přístupu k výpočtu. Ve většině případů Ann je adaptivní systém, který změní jeho strukturu založenou na vnějších nebo interních informacích, které protékají sítí.
Ve více praktických termínech neuronové sítě jsou nelineární statistická data nástroje modelování. Oni mohou být zvyklí na modelové komplexní relace mezi vstupy a výstupy nebo nacházet vzory v datech.
Pozadí
Není tam žádná přesná dohodnutá definice mezi výzkumníky, zatímco k čemu neuronová síť je, ale nejvíce by souhlasil, že to zahrnuje síť jednoduchých zpracovacích elementů (neurons) který může projevit komplexní globální chování, určený spojeními mezi elementy zpracování a parametry elementu. Originální inspirace pro techniku byla od zkoušky centrální nervové soustavy a neurons (a jejich axony, dendrites a synapses) který představovat jeden z jeho nejvýznamnějšího zpracování informací elementy (vidí Neuroscience). V modelu neuronové sítě, jednoduché uzly (nazvaný různě “neurons”, “neurodes”, “PEs” (“elementy zpracování”) nebo “jednotky”) souviset spolu tvořit síť uzlů — od této doby termín “neuronová síť”. Zatímco neuronová síť nemusí být adaptivní na se, jeho praktické používání jde s algoritmy navržený měnit sílu (váhy) spojení v síti produkovat požadovaný signálový tok.
Tyto sítě jsou také podobné biologickým neuronovým sítím v pocitu, že funkce jsou vykonávány kolektivně a v protějšku jednotkami, spíše než tam být jasný nárys náhradníka-úlohy ke kterým různým jednotkám jsou přiřazeny (vidět také connectionism). Nyní, termín Ann inklinuje odkazovat většinou k modelům neuronové sítě zaměstnaným ve statistikách a umělé inteligenci. Modely neuronové sítě navrhnuté s emulací centrální nervové soustavy (CNS) v mysli být předmět teoretického neuroscience.
V moderních softwarových realizacích umělých neuronových sítí přístup inspirovaný biologií má více nebo méně been opuštěný pro více praktický přístup založený na statistikách a zpracování signálu. V některých těchto systémů neuronové sítě, nebo díly neuronových sítí (takový jak umělý neurons) být používán jako součásti ve větších systémech, které kombinují oba adaptivní a non-adaptivní členy. Zatímco obecnější příchod takových adaptivních systémů je více vhodný ke skutečnému problémovému placení, to má daleko méně potřebovat tradiční umělou inteligenci connectionist modely. Co oni přece nicméně mají v obyčejný je princip nelineární, distribuovaný, paralelní a místní zpracování a adaptace.
Modely
Modely neuronové sítě v umělé inteligenci jsou obvykle odkazoval se na jak umělý nervový propojí (ANNs); tito nezbytně jednoduché matematické modely určí funkci
. Každý druh modelu Ann odpovídá třída takových funkcí.
síť v umělá neuronová síť
Slovo síť v termínu ' umělá neuronová síť ' vyvstává protože funkce f(x) je definován jako složení ostatních funkcí gi(x), který může dále být definován jako složení ostatních funkcí. Toto může být příhodně reprezentováno jako struktura sítě, se šipkami líčit závislosti mezi proměnnými. Široce použitý druh složení je nelineární posuzovaný součet, kde
, kde K je nějaká funkce predefined, takový jako hyperbolická tangenta. To bude vhodné pro sledování se odkazovat na sbírku funkcí gi jak jednoduše vektor
.
Toto číslo zobrazí takový rozložení f, se závislostmi mezi proměnnými ukázanými šipkami. Tito mohou být interpretovaní dvěma způsoby.
První pohled je funkční pohled: vstup x je transformován do 3-rozměrný vektor h, který je pak přeměněn do 2-rozměrný vektor g, který je nakonec změněn do f. Tento pohled je nejvíce obyčejně narazený v souvislosti s optimalizací.
Druhý pohled je pohled probabilistic: náhodná proměnná F = f(G) závisí na náhodné proměnné G = g(H), který závisí na H = h(X), který závisí na náhodné proměnné X. Tento pohled je nejvíce obyčejně narazený v souvislosti s grafickými modely.
Dva pohledy jsou velmi ekvivalent. V jednom případě, pro obzvláště tuto síťovou architekturu, součásti individuálních vrstev, tj. komponenty g být nezávislý na každém jiný daný jejich vstup h. Toto přirozeně umožní míru podobnosti v realizaci.
Sítě takový jako ten předchozí být obyčejně volal feedforward, protože jejich graf je orientovaný acyclic graf. Sítě s cykly jsou obyčejně nazvané recidivující. Takové sítě jsou obyčejně líčeny ve způsobu ukazovaném u vrcholu čísla nahoře, kde f je ukazován jako bytí závislé na sobě. Nicméně, tam je implikovaná světská závislost, která není ukázaná. Co toto vlastně prostředky v praxi je to hodnota f u nějakého bodu včas t závisí na hodnotách f u jednoho nebo více jiných bodů včas. Grafický model u dna čísla objasní případ hodnota f v době t jen závisí na jeho poslední hodnotě. Modely takový jako tito, který mají žádné závislosti v budoucnosti, být nazýván příčinnýma modely.
Učení
Nicméně zajímavé takové funkce mohou být v sobě, co zaujalo nejvíce zájem na neuronových sítích je možnost učení, který v praxi znamená pokračování:
Daný přesný úloha platit, a třída funkcí F, učení znamená používat soubor pozorování, aby objevil
který řeší úlohu v optimální smysl.
Toto znamená, že určí cenovou funkci
takový to, pro optimální řešení f * ,

Funkce ceny C je důležité pojetí v učení, jak to je míra jak daleký pryč my jsme od optimálního řešení problému že my chceme řešit. Algoritmy učení prohledají prostor řešení v rozkazu najít funkci, která má nejmenší možnou cenu.
Pro aplikace kde řešení je závislé na nějakých datech, cena musí nutně být funkce pozorování, jinak my bychom nemodelovali něco příbuzný datům. To je často definované, zatímco statistika ke kterým jediným přiblížením může být dělána. Jako jednoduchý příklad zvažovat problém nálezu model f který minimalizuje
, pro páry dat (x,y) natažený od nějaké distribuce
. V praktických situacích my bychom jen měli N vzorky od
a tak, pro nad příkladem, my bychom jen minimalizovali
. Tak, cena je minimalizována přes vzorek dat spíše než opravdová datová distribuce.
Když
nějaká forma online učení musí být používána, kde cena je částečně minimalizovaná, zatímco každý nový příklad je viděn. Zatímco online učení je často používáno když
je připevněn, to je nejužitečnější v případě kde distribuce se mění pomalu v průběhu doby. V metodách neuronové sítě, nějaká forma online učení je často také užitá na konečné datové sady.
Viz též: Optimalizace (matematika), statistický názor, učení stroje
Parameterized funkce a pravidla učení
Obvykle, ale ne vždy, v umělých neuronových sítích, funkce f je definován vektorem parametrů w; toto dovolí optimisation se konat v prostoru parametru. Kombinace zvláštní cenové funkce s nějakou parameterised funkcí a přesné optimisation metody, vede k souboru aktualizační rovnice pro parametry. Toto je obyčejně odkazoval se na jak pravidlo učení.
Nějaká běžně používaná neuronová síť funkce jsou:
, s
a 
, s 

, s 
Vybírat si funkci ceny
Zatímco to je možné libovolně definovat některé hoc inzerátu stojí funkci, často zvláštní cena bude použitá jeden protože to má žádoucí vlastnosti (takový jak convexity) nebo protože to vyvstává přirozeně od zvláštní formulace problému (tj. ve formulaci probabilistic pozdější pravděpodobnost modelu může být používána jako nepřímá cena). Nakonec, funkce ceny závisí na úloze my přejeme si hrát. Tři hlavní kategorie úloh učení jsou overviewed dole.
Vzory učení
Jsou tam tři hlavní učící vzory, každý odpovídající zvláštní abstraktní učící úloze. Tito jsou kontrolované učení, unsupervised učení a učení zesílení. Obvykle nějaký daný druh síťové architektury může být zaměstnán v některém těch úloh.
Kontrolované učení
V kontrolovaném učení, my dostaneme soubor párů příkladu
a cíl má najít funkci f v povolené třídě funkcí to odpovídá příkladům. Jinými slovy, my přejeme si k odvodit mapování implikované daty; funkce ceny je příbuzná záměně mezi naším mapováním a datům a to implicitně obsahuje předchozí znalost problémové domény.
Běžně používaná cena je zlý-čtvercová chyba, která pokusí se minimalizovat střední chybu mezi výstupem sítě, f (x), a hodnota cíle y přes všechny páry příkladu. Když jeden pokusí se minimalizovat tuto cenu používat sklon svah pro třídu neuronových sítí volal Multi-navrstvit Perceptrons, jeden dostane známý backpropagation algoritmus pro tréninkové neuronové sítě.
Úlohy ten pád uvnitř vzoru kontrolovaného učení být rozpoznávání vzorů (také známý jako klasifikace) a návrat (také známý jako přiblížení funkce). Kontrolovaný učící vzor je také vhodný k následným datům, tj. pro řeč a pro uznání gesta.
Unsupervised učení
V učení unsupervised my dostaneme nějaká data x, a cenová funkce být minimalizován může být nějaká funkce dat x a výstup sítě, f.
Funkce ceny je závislá na úloze (co my snažíme se k modelu) a naše a priori předpoklady (implicitní vlastnosti našeho modelu, jeho parametrů a pozorovaných proměnných).
Jako triviální příklad, zvažovat model f(x) = a, kde a je konstanta a cena C = (E[x]? f(x))2. Minimalizování této ceny dá nám hodnotu a to je se rovnat k zlý dat. Funkce ceny může být hodně více komplikovaná. Jeho forma závisí na aplikaci: Například v komprimaci to mohlo být příbuzné vzájemným informacím mezitím x a y. Ve statistickém modelování, to mohlo být příbuzné pozdější pravděpodobnosti modelu daný data. (Si všimnout toho v obou těch příkladů ta množství by byla maximalizovaná spíše než minimalizovaný)
Úlohy ten pád uvnitř vzoru unsupervised učení být obecně problémy názoru; aplikace zahrnují sdružování, názor na statistické distribuce, komprimaci a filtrování.
Učení zesílení
V učení zesílení, data x je obvykle ne daný, ale vytvořený agentem je vzájemná ovlivňování s životním prostředím. U každého bodu včas t, agent vykoná čin yt a životní prostředí tvoří pozorování xt a okamžitá cena ct, podle nějaké (obvykle neznámé) dynamiky. Cíl má zjistit politika pro akce vybrání to minimalizuje nějakou míru dlouhodobé ceny, tj. očekával narůstající cenu. Dynamika prostředí a dlouhodobá cena pro každou politiku jsou obvykle neznámo, ale moci být odhadovaný.
Více formálně, životní prostředí je definováno jako Markov rozhodnutí zpracovat (MDP) se státy
a následující rozdělení pravděpodobnosti: okamžitý rozvrh nákladů P(ct | st), distribuce pozorování P(xt | st) a přechod P(st + 1 | st,yt), zatímco politika je definována jako podmíněné rozdělení přes akce daný pozorování. Zaujatý spolu, dva definovat Markov přivázat (MC). Cíl má objevit politiku, která minimalizuje cenu, tj. MC pro kterého cena je minimální.
ANNs je často používán v učení zesílení jako součást celkového algoritmu.
Úlohy ten pád uvnitř vzoru učení zesílení jsou problémy kontroly, hry a jiné následné rozhodování úlohy.
Viz též: dynamický programovací, stochastic kontrola
Algoritmy učení
Tam jsou četné dostupné algoritmy pro trénink modely neuronové sítě; většina z nich může být viděna jako přímá aplikace teorie optimalizace a statistický názor.
Většina z algoritmů používaných v přípravě umělé neuronové sítě zaměstnají nějakou formu generace sklonu. Toto je děláno tím, že prostě bere derivát funkce ceny se ohledem na parametry sítě a pak mění ty parametry ve sklonu-příbuzný směr.
Evoluční metody, simuloval annealing a očekávání-zvětšení a neparametrické metody jsou mezi jiné běžně používané metody na tréninkové neuronové sítě. Viz též učení stroje.
Zaměstnávat umělé neuronové sítě
Snad největší výhoda ANNs je jejich schopnost být používán jako libovolná funkce mechanismus přiblížení který ' se učí od poznamenala data. Nicméně, používat je je ne tak přímý a relativně dobré chápání základové teorie je základní.
- Volba modelu: Toto závisí na reprezentaci dat a aplikaci. Příliš komplexní modely inklinují k vedení k problémům s učením.
- Se učit algoritmus: Tam jsou četné kompromisy mezi algoritmy učení. Téměř nějaký algoritmus bude pracovat dobře s správné hyperparameters pro trénink na zvláštní fixované datové sadě. Nicméně vybírat a ladit algoritmus pro trénink na neviditelných datech vyžaduje významné množství experimentování.
- Robustnost: Jestliže model, funkce ceny a algoritmus učení jsou vybráni přiměřeně vyplývání Ann může být extrémně robustní.
Se správnou implementací ANNs může být používán přirozeně v online učení a velké datové sadě aplikace. Jejich jednoduchá implementace a existence většinou místní závislosti vystavovaly ve struktuře počítá s rychlými, paralelními implementacemi v hardwaru.
Aplikace
Pomůcka umělé neuronové sítě lži modelů ve skutečnosti, že oni mohou být usoudily funkci z pozorování. Toto je zvláště užitečné v aplikacích kde složitost dat nebo úlohy udělá vzor takový funkce po ruce nepraktický.
Aplikace pravého života
Úlohy ke kterým umělým neuronovým sítím jsou aplikovány inklinovat k pádu uvnitř následujících širokých kategorií:
- Přiblížení funkce, nebo regresivní analýza, včetně předpovědi časových řad a modelování.
- Klasifikace, včetně vzoru a uznání sekvence, detekce novinky a následné rozhodování.
- Zpracování dat, včetně filtrování, sdružování, slepého zdrojového oddělení a komprimace.
Oblasti aplikace zahrnují identifikaci systému a kontrolu (kontrola vozidla, kontrola procesu), hra-hrát a rozhodování (backgammon, šachy, závodní), rozpoznávání vzorů (radarové systémy, identifikace tváře, uznání objektu a více), sekvenční uznání (gestikulovat, řeč, ručně psané textové uznání), lékařská diagnóza, finanční aplikace, dolování dat (nebo objev znalostí v databázích, “KDD”), vizualizace a e-mailovat filtrování nevyžádaného e-mailu.
Nervový síťový software
Nervový síťový software je používán simulovat, výzkum, se vyvíjet a platit umělé neuronové sítě, biologické neuronové sítě a v některých případech širší pole adaptivních systémů.
Druhy neuronových sítí
Feedforward neuronová síť
Feedforward neuronové sítě jsou první a pravděpodobně nejjednodušší druh umělých neuronových sítí vymyslel. V této síti, informace se pohybují v jediném jednom směru, přední, od uzlů vstupu, přes skryté uzly (jestliže některý) a k uzlům výstupu. Nejsou tam žádné cykly nebo smyčky v síti.
Jeden-navrstvit perceptron
Nejčasnější druh neuronové sítě je jeden-navrstvit perceptron síť, který sestává z jediné vrstvy uzlů výstupu; vstupy jsou krmeny přímo k výstupům přes sérii váh. Tímto způsobem to může být považováno za nejjednodušší druh krmení-předat síť. Suma produktů váh a vstupů je vypočítána v každém uzlu, a jestliže hodnota je nad nějakým prahem (typicky 0) neuron vystřelí a vezme aktivovanou hodnotu (typicky 1); jinak to vyžaduje deaktivovanou hodnotu (typicky - 1). Neurons s tímto druhem funkce aktivace být také nazvaný McCulloch-Pitts neurons nebo práh neurons. V literatuře termín perceptron často se odkazuje na sítě sestávat z jen jeden z těchto jednotek. Oni byli popsaní Warrenem Mccullochem a Walter Pitts ve čtyřicátých létech.
Perceptron může být vytvořen používat nějaké hodnoty pro aktivoval a deaktivoval státy jak dlouho jak mezní hodnota leží mezitím dva. Nejvíce perceptrons mají výstupy 1 nebo - 1 s prahem 0 a tam je nějaký důkaz, že takové sítě mohou být cvičeny více rychle než sítě vytvořené od uzlů s různou aktivací a hodnoty deaktivace.
Perceptrons může být cvičen jednoduchým učícím algoritmem, který je obvykle nazvaný pravidlo delty. To spočítá chyby mezi vypočteným výstupem a vzorkovýma výstupními údaji a použití toto vytvořit přizpůsobení váh, tak realizovat formu generace sklonu.
Jeden-perceptrons jednotky jsou jen schopné učení linearly oddělitelné vzory; v roce 1969 ve slavné monografii opravňovaný Perceptrons Marvin Minsky a Seymour Papert ukázal, že to bylo nemožné pro jeden-navrstvit perceptron síť se učit XOR funkci. Oni se domýšleli (nesprávně) že podobný výsledek by držel pro multi-navrstvit perceptron síť. Ačkoli jediná prahová jednotka je docela omezená v jeho výpočetní síle, to bylo ukázané že sítě paralelních prahových jednotek mohou přiblížit se nějaké spojité funkci od kompaktního intervalu reálných čísel do pauzy [- 1, 1]. Tento velmi nedávný výsledek může být najit v [Auer, Burgsteiner, Maass: P-deltové učící pravidlo pro paralelní perceptrons, 2001 (říká Jan 2003: se podrobil pro publikaci )].
Jeden-vrstvová neuronová síť může počítat trvalý výkon místo skokové funkce. Obyčejný výběr je takzvaná logistická funkce:
S tímto výběrem, jeden-vrstvová síť je totožná s logistickým návratovým modelem, široce použitý ve statistickém modelování. Logistická funkce je také známá jako funkce sigmoid. To má nepřetržitý derivát, který dovolí tomu být použit v backpropagation.
Multi-navrstvit perceptron
Tato třída sítí sestává z rozmanitých vrstev výpočetních jednotek, obvykle propojený v krmení-předat cestu. Každý neuron v jednom vrstva má orientované souvislosti k neurons následující vrstvy. V mnohých žádostech jednotky těchto sítí aplikují sigmoid funkci jako funkce aktivace.
univerzálie teorém přiblížení pro státy neuronových sítí ta každá spojitá funkce, která mapuje intervaly reálných čísel k nějakému výstupnímu intervalu reálných čísel může být zaokrouhlená libovolně blízko multi-perceptron vrstvy se správným skrytá vrstva. Tento výsledek drží jen pro omezené třídy funkcí aktivace, např. pro funkce sigmoidal.
Multi-vrstvové sítě používají paletu technik učení, nejvíce populární bytí zpět-propagace. Tady výstupní hodnoty jsou srovnávány se správnou odpovědí spočítat hodnotu nějaké chyby predefined-fungovat. Různými technikami chyba je pak záda policajta přes síť. Používat tyto informace, algoritmus nastaví váhy každého spojení aby snížil cenu funkce chyby nějakým malým množstvím. Poté, co opakoval tento proces pro dostatečně velké množství cyklů tréninku síť obvykle sblíží se k nějakému státu kde chyba výpočtů je malá. V tomto případě jeden říká, že síť má se učil jistá cílová funkce. Nastavit váhy vhodně jeden použije obecnou metodu pro nelineární optimalizační úlohu, která je nazývána generací sklonu. Pro toto, derivát funkce chyby se ohledem na váhy sítě je spočítán a váhy jsou pak měněny takový že chyba se sníží (tak jít dolů na povrchu funkce chyby). Z tohoto důvodu zpět-propagace může jen být aplikována na sítích s differentiable aktivace funguje.
Obecně problém učení síť, která funguje dobře, dokonce na vzorkách, které nebyly použité jak vzorkách tréninku, je docela důvtipná záležitost, která vyžaduje další techniky. Toto je obzvláště důležité pro případy kde jen velmi omezená množství vzorků školení jsou dostupná. Nebezpečí je že síť overfits data školení a nedokáže zachytit opravdový statistický proces tvořit data. Výpočetní učící teorie je znepokojena classifiers školení na omezeném množství dat. V souvislosti s neuronovými sítěmi jednoduchý heuristický, volal časné zastavení, často zajistí, že síť zevšeobecní studnu na příklady ne v souboru tréninku.
Jiné typické problémy zád-algoritmus propagace jsou rychlost sbližování a možnost do konce nahoru v místním minimu funkce chyby. Dnes jsou praktická řešení, která dělají záda-propagace v multi-vrstva perceptrons roztok volby mnoha strojových učících úloh.
Adaline
Adaptive lineární Neuron nebo později volal Adaptive lineární element. To bylo vyvinuto Professor Bernard Widrow a jeho postgraduální student Ted Hoff u Stanford univerzity v roce 1960. To je založené na McCulloche-Pitts model. To sestává z váhy, zaujatosti a funkce shrnutí.
Operace: yi = wxi + b
Jeho adaptace je definována přes funkci ceny (chyba metrický) zbytkový e = di ? (b + wxi) kde di je požadovaný vstup. S MSE chybou metrický
adaptovaná váha a zaujatost se stojí:
a 
Zatímco Adaline je přes toto schopný jednoduchého lineárního návratu, to má omezené praktické používání.
Tam je rozšíření Adaline, volal Multiple Adaline (MADALINE) to sestává z dva nebo více adalines serially připojený.
Paprskovitý funkce základu (RBF)
Paprskovitý funkce základu jsou silné techniky pro vložení ve vícerozměrném prostoru. RBF je funkce, která vyrůstala do kritéria vzdálenosti s úctou do středu. Paprskovitý funkce základu byly aplikované v oblasti neuronových sítí kde oni mohou být používáni jako nahrazení pro sigmoidal skrytou vrstvovou převodovou funkci v vícevrstvovém perceptrons. RBF sítě mají 2 vrstvy zpracování: V první, vstup je mapován na každém RBF v ' skrytý ' vrstva. RBF volený je obvykle Gaussian. V problémech návratu výstupní vrstva je pak lineární kombinace skrytých vrstvových hodnot reprezentovat zlý předpovídal výstup. Výklad s touto výstupní vrstvovou hodnotou je stejný jako model návratu ve statistikách. V problémech klasifikace výstupní vrstva je typicky sigmoid funkce lineární kombinace skrytých vrstvových hodnot, reprezentovat pozdější pravděpodobnost. Výkon v obou případech je často zlepšen technikami srážení, známý jako návrat vyvýšeniny v klasických statistikách a známý odpovídat dřívější víře v malé parametrové hodnoty (a proto hladké výstupní funkce) v Bayesian rámci.
RBF sítě mají výhodu ne trpět místním minima stejně jak vícevrstvovým perceptrons. Toto je, protože jediné parametry, které jsou nastavily v procesu učení být lineární mapování od skryté vrstvy k výstupní vrstvě. Linearita zajistí, že povrch chyby je kvadratický a proto má jedno snadno najité minimum. V problémech návratu toto může se nalézat v jednom maticovém provozu. V problémech klasifikace fixovaná nelinearita představená sigmoid výstupní funkcí je nejvíce efektivně se zabýval používáním opakoval reweighted nejméně čtverců.
RBF sítě mají nevýhodu vyžadovat dobré pokrytí vstupu prostor paprskovitým základem funguje. RBF centra jsou určována s odkazem na distribuci vstupních údajů, ale bez odkazu na úlohu předpovědi. Jako výsledek, prezentační prostředky mohou být zbytečné na oblastech prostoru vstupu to být nepodstatný pro úlohu učení. Obyčejné řešení má sdružit každý vztažný bod s jeho vlastním centrem, ačkoli toto může dělat lineární systém být řešen ve vrstvě finále poněkud velký, a vyžaduje techniky srážení se vyhnout overfitting.
Stýkat se každé datum vstupu se RBF vede přirozeně k metodám jádra takový jak Support stroje vektoru a Gaussian procesy (RBF je funkce jádra). Všechny tři přístupy používají nelineární funkci jádra projektovat vstupní údaje do prázdna kde problém učení může být řešen používat lineární model. Jako Gaussian procesy, a na rozdíl od SVMs, RBF sítě jsou typicky trénované v maximu kostra pravděpodobnosti tím, že maximalizuje pravděpodobnost (minimalizovat chybu) dat pod modelem. SVMs vykoná různý přístup k vyhýbat se overfitting tím, že vyhýbá se maximalizovat místo toho okraj. RBF sítě jsou překonány ve většině klasifikačních přihláškách SVMs. V aplikacích návratu oni mohou být soutěživí, když rozměrnost prostoru vstupu je relativně malá.
Kohonen self-organizovat síť
self-organizovat mapu (SOM) vynalezený Teuvo Kohonen použitími forma učení unsupervised. Soubor umělý neurons učit se mapovat důvody k prostoru vstupu k osám ve výstupním prostoru. Prostor vstupu může mít jiné dimenze a topologii od prostoru výstupu a SOM bude pokoušet se chránit tyto.
Článkové vodiče
Opačný k sítím feedforward, opakující se neuronová síť (RNs) je modely s bi-řídící datový tok. Zatímco feedforward síť množí linearly dat od vstupu k výstupu, RNs také množí data z pozdnějších zpracovacích stádií k časnějším stádiím.
Jednoduché článkové vodiče
A jednoduché článkové vodiče (SRN) je variace na multi-navrstvit perceptron, někdy volal “Elman síť” kvůli jeho vynálezu Jeff Elman. Tři-vrstvová síť je používána, s přidáním souboru “jednotek kontextu” ve vrstvě vstupu. Tam jsou spojení od středu (skrytá) vrstva k těmto jednotkám kontextu opraveným s váhou jednoho. U každého kroku času, vstup je propagován ve standardním krmení-předat módu, a pak pravidlo učení (obvykle couvat-propagace) je aplikován. Fixovaná zadní spojení skončí jednotkami kontextu vždy udržovat kopii předchozích hodnot skrytých jednotek (protože oni množí přes spojení dříve, než pravidlo učení je aplikováno). Tak síť může udržovat druh státu, dovolit tomu provádět takové úkoly jako sled-předpověď to být za sílou multi standardu-navrstvit perceptron.
V plně recidivující síť, každý neuron přijme vstupy od každý jiný neuron v síti. Tyto sítě nejsou dohodnuté ve vrstvách. Obvykle jediný podmnožina neurons přijmout externí vstupy kromě vstupů od všech jiný neurons, a další disjunct podmnožina neurons ohlásit jejich výstup externě stejně jako odesílání to k celá neurons. Tyto výrazné vstupy a výstupy vykonají funkci vstupu a dodají vrstvy krmení-přední nebo jednoduché článkové vodiče, a také se spojit celá jiný neurons v opakujícím se zpracování.
Hopfield síť
Hopfield síť je opakující se neuronová síť ve kterém všechna spojení symmetric. Vynalezený John Hopfield v roce 1982, tato síť garantuje, že jeho dynamika se sblíží. Jestliže spojení jsou trénované používání Hebbian učení pak Hopfield síť mohou vykonávat velký obsah-adresovatelná paměť, robustní ke změně spojení.
Stochastic neuronové sítě
Stochastic neuronová síť se liší od pravidelné neuronové sítě ve skutečnosti, že to představí náhodné variace do sítě. V probabilistic pohledu na neuronové sítě, takové náhodné variace mohou být viděny jako forma statistického vzorkování, takový jako vzorkování Montea Carla.
Boltzmann stroj
Boltzmann stroj může být myšlenka jako hlučná Hopfield síť. Vynalezený Geoff Hinton a Terry Sejnowski v roce 1985, Boltzmann stroj je důležitý, protože to je jeden z prvních neuronových sítí demonstrovat učení latentních proměnných (skryté jednotky). Boltzmann strojové učení bylo pomalé simulovat, ale contrastive algoritmus odlišnosti Geoffa Hintona (circa 2000) dovolí modely včetně Boltzmann strojů a produkt expertů být cvičen hodně rychlejší.
Modulární neuronové sítě
Biologická studia ukázala, že lidský mozek funguje ne jako jedna jedna masivní síť, ale jako sbírka malých sítí. Tato realizace způsobila zrod k představě o modulárních neuronových sítích, ve kterém několik malých sítí spolupracuje nebo soutěží vyřešit problémy.
Výbor strojů
A výbor strojů (CoM) je sbírka různých neuronových sítí, které spolu “hlasují” na daném příkladu. Toto obecně dává mnohem lepší výsledek porovnaný k jiným modelům neuronové sítě. Ve faktu v mnoha případech, spouštění se stejnou architekturou a školením ale různých počátečních náhodných váhách dává mnohem různé sítě. CoM inklinuje stabilizovat výsledek.
CoM je podobný učení univerzálního stroje pytlování metoda, kromě toho nutná paleta strojů ve výboru je získána tréninkem od různých náhodných začínajících váh spíše než trénink na různých náhodně vybraných podmnožinách dat tréninku.
Asociativní nervový propojit (ASNN)
Je rozšíření výbor strojů to přesahuje jednoduchý/posuzovaný průměr různých modelů. ASNN reprezentuje kombinaci celku krmení-předat neuronové sítě a k-nejbližší sousední technika (kNN). To používá korelaci mezi odezvami souboru jako míra vzdálenosti uprostřed analyzovaných důvodů pro kNN. Toto opraví zaujatost souboru neuronové sítě. Asociativní neuronová síť má paměť, která může se shodovat se souborem tréninku. Jestliže nová data stanou se dostupná, síť okamžitě zlepší jeho prediktivní schopnost a poskytne data přiblížení (self-učit se data) bez potřeby přeškolit soubor. Další důležitý rys ASNN je možnost interpretovat výsledky neuronové sítě analýzou korelací mezi případy dat v době modelů. Metoda může být používána on-line nebo stáhnutý u www.vcclab.org.
Jiné druhy sítí
Tyto sítě speciality neodpovídají některému předchozích kategorií.
Holographic asociativní paměť
Holographic asociativní paměť reprezentuje rodinu analogový, korelace-umístěný, asociativní, podnět-paměti odezvy, kde informace jsou mapovány na orientaci fáze komplexních čísel operovat. Tyto modely projeví některé významné vlastnosti takový jako zevšeobecňování, rozpoznávání vzorů s instanteneously proměnlivou pozorností a schopnost získat velmi malé vzory.
Okamžitě cvičil sítě
Okamžitě cvičil neuronové sítě (ITNNs) být také nazýván “Kak sítěmi” po jejich vynálezci Subhash Kak. Oni byli inspirováni jevem krátkodobého učení, které vypadá, že nastane okamžitě. V těchto sítích váhy skrytý a výstupní vrstvy jsou mapovány přímo z tréninkových vektorových dat. Běžně, oni pracují na binárních datech, ale verze pro nepřetržitá data, která vyžadují malé další zpracování jsou také dostupné.
Klínující neuronové sítě
Klínovat (nebo pulsoval) neuronové sítě (SNNs) jsou modely, které výslovně vezmou v úvahu načasování vstupů. Vstup sítě a výstup jsou obvykle reprezentováni jako série bodců (funkce delty nebo více komplexních tvarů). SNNs má výhodu bytí schopného nepřetržitě zpracovat informaci. Oni jsou často realizováni jako opakující se sítě.
Sítě klínování neurons -- a světské korelace nervových shromáždění v takových sítích -- byli zvyklí na číslo modelu/mleli oddělení a spojování oblasti ve vizuálním systému (vidět např. Reitboeck et.al.in Haken a Stadler: Synergetics mozku. Berlin, 1989).
Gerstner a Kistler má volně-dostupná online učebnice Spiking Neuron modely.
Klínovat neuronové sítě s vedením axonal exponát zpoždění polychronization, a od této doby mohl mít potenciálně neomezenou pamětovou schopnost.
V červnu 2005 IBM oznámil konstrukci modrého genu superpočítač oddaný simulaci velké recidivující klínující neuronové sítě [1].
Dynamické neuronové sítě
Dynamické neuronové sítě ne jen se zabývat nelineárním multivariate chováním, ale také obsahovat (dozvídat se o) čas-závislé chování takový jako různé přechodné jevy a efekty zpoždění. Meijer má Ph.D. teze online kde pravidelné feedforward vnímací sítě jsou celkové s diferenciálními rovnicemi, algoritmy použití proměnného časového opatření pro učení v časové oblasti a obsahujícími algoritmy pro učení v doméně frekvence (v tom linearized případu kolem souboru statických zaujatých bodů).
Kaskádní neuronové sítě
Tyto neuronové sítě začnou jejich trénink bez některého skrytý neurons. Jako výstup chyba dosáhne predefined chybového prahu, sítě sčítají nový skrytý neuron. Nový skrytý neuron je propojený na všechny uzly vstupu, také jak, všichni předchozí skrytý neurons. Trénink skončí, když vhodný chybový práh je podáván nebo když maximální počet skrytý neurons je přidán.
Neuro-chmýřovité sítě
Neuro-chmýřovité sítě je chmýřovitý odvozovací systém v těle umělé neuronové sítě. Spoléhat se na FIS psát, tam je několik vrstev, které simulují zahrnuté procesy v chmýřovitý závěr mít rád fuzzification, závěr, agregaci a defuzzification. Prostoupení FIS ve struktuře generála Ann má výhoda dostupného používání Ann trénovat metody, aby našel parametry chmýřovitého systému.
Teoretické vlastnosti
Kapacita
Umělý modely neuronové sítě mají vlastnost nazvaný ' kapacita ', který ostře odpovídá jejich schopnosti modelovat nějakou danou funkci. To je příbuzné množství informací, které mohou být uloženy v síti a k ponětí o složitosti.
Sbližování
Nic může být říkáno obecně o sbližování od té doby, co to závisí na množství faktorů. Firstly, tam smět existovat mnoho místních minima. Toto závisí na funkci ceny a modelu. Zadruhé, metoda optimisation používala sílu ne být zaručil se sblížit když daleko pryč od místního minima. Thirdly, pro velmi velké množství dat nebo parametry, některé metody stanou se nepraktické. Obecně, nicméně, to bylo našel to teoretické záruky pozorovat sbližování být ne vždy velmi spolehlivý průvodce po praktickém užití.
Zevšeobecňování a statistiky
V aplikacích kde cíl má vytvořit systém to zevšeobecní studnu v neviditelných příkladech, problém overtraining se objevil. Toto vyvstává v overcomplex nebo overspecified systémech, když kapacita sítě významně překročí potřeboval volné parametry. Tam jsou dvě školy myšlenky pro vyhýbat se tomuto problému: První je ke kříži použití-validace a podobné techniky k šeku na přítomnost overtraining a optimally vyberou hyperparameters takový jak minimalizovat chybu zevšeobecňování. Sekunda má používat nějakou formu regularisation. Toto je pojetí, které se objeví přirozeně v probabilistic (Bayesian) kostra, kde regularisation může být vykonáván tím, že dá větší dřívější pravděpodobnost přes jednodušší modely; ale také ve statistické učící teorii, kde cíl má minimalizovat přes dvě kvantity: ' empirické riziko ' a ' strukturální riziko ', který ostře odpovídat chybě přes soubor školení a předvídanou chybu v neviditelných datech kvůli overfitting.
Dohlížel na neuronové sítě, které používají MSE funkce ceny může používat formální statistické metody určovat důvěru trénovaného modelu. MSE na validaci soubor může být používán jako odhad rozdílnosti. Tato hodnota může pak být používána spočítat interval spolehlivosti výstupu sítě, předpokládat normální distribuci. Analýza důvěry udělala tuto cestu je statisticky platný jak dlouhý jako výstup rozdělení pravděpodobnosti zůstane stejné a síť není upravená.
Tím, že zadá softmax funkci aktivace na výstupní vrstvě neuronové sítě (nebo softmax komponenta v komponentě založila neuronovou síť) pro kategorické cílové proměnné, výstupy mohou být interpretovány jako pozdější pravděpodobnosti. Toto je velmi užitečné v klasifikaci, zatímco to dává míru jistoty na klasifikacích.
Softmax funkce aktivace: 
Dynamical vlastnosti
Různé techniky původně vyvinuté pro studování disordered magnetické systémy (brýle rotace) byly úspěšně aplikovány na jednoduché nervové síťové architektury, takový jako perceptron. Vlivná práce E. Gardner a B. Derrida odhalil mnoho zajímavých vlastností o perceptrons s skutečný-cenil synaptické váhy, zatímco pozdnější práce W. Krauth a M. Mezard rozšířil tyto principy k binární-oceněný synapses.
Patenty
- Arima, al et., USA jasný 5293457,”Neuronová síť integrovala obvodové zařízení mít self-organizovat funkci#rquote. 8. března 1994.
Bibliografie
- Bar-Yam, Yaneer (2003). Dynamika komplexních systémů, kapitola 2.
- Bar-Yam, Yaneer (2003). Dynamika komplexních systémů, kapitola 3.
- Bar-Yam, Yaneer (2005). Dělat věci pracovat. Prosím viďte kapitolu 3
- Bishop, C.M. (1995) Neuronové sítě pro rozpoznávání vzorů, Oxford: Oxford univerzitní tiskárna. ISBN 0-19-853849-9 (vázaná kniha) nebo ISBN 0-19-853864-2 (brožovaný výtisk)
- Duda, R.O., Hart, P.E., Stork, D.G. (2001) Klasifikace vzoru (2. vydání), Wiley, ISBN 0471056693
- Gurney, K. (1997) An úvod do neuronových sítí Londýn: Routledge. ISBN 1-85728-673-1 (vázaná kniha) nebo ISBN 1-85728-503-4 (brožovaný výtisk)
- Haykin, S. (1999) Neuronové sítě: Úplná nadace, Prentice Hall, ISBN 0-13-273350-1
- Hertz, J., Palmer, R.G., Krogh. A.S. (1990) Úvod k teorii nervového počítání, Perseus knihy. ISBN 0201515601
- Lawrence, Jeanette (1994) Úvod do neuronových sítí, Kalifornie vědecký software tisk. ISBN 1-883157-00-5
- Páni, Timothy (1994) Signál a zpracování obrazu s neuronovými sítěmi, John Wiley a synové, Inc. ISBN 0-471-04963-8
- Smith, Murray (1993) Neuronové sítě pro statistické modelování, Van Nostrand Reinhold, ISBN 0-442-01310-8
- Wasserman, Philip (1993) Pokročilé metody v nervové práci na počítači, Van Nostrand Reinhold, ISBN 0-442-00461-3

