Alternatívy nahradiť STATISTICA. Neurálne siete

STATISTICA Automated Neural Networks je jediný softvérový produkt pre neurónovú sieť na svete, ktorý je kompletne preložený do ruštiny!

Metodológie neurónových sietí sú čoraz rozšírenejšie v rôznych oblastiach od základného výskumu až po praktické aplikácie analýzy údajov, obchodu, priemyslu atď.

je jedným z najpokročilejších a najefektívnejších produktov neurónových sietí na trhu. Ponúka množstvo jedinečných výhod a bohaté funkcie. Napríklad jedinečné možnosti nástroja na automatické vyhľadávanie neurónových sietí, , umožňujú používať systém nielen odborníkom na neurónové siete, ale aj začiatočníkom v oblasti výpočtovej techniky v neurónových sieťach.

Aké sú výhody používania ?

    Predspracovanie a následné spracovanie vrátane výberu údajov, nominálneho kódovania, škálovania, normalizácie, odstraňovania chýbajúcich údajov s interpretáciou pre klasifikáciu, regresiu a problémy s časovými radmi;

    Výnimočne jednoduché použitie plus bezkonkurenčný analytický výkon; napríklad jedinečný nástroj na automatické vyhľadávanie neurónových sietí Automatizovaná neurónová sieť (ANN) prevedie používateľa všetkými fázami vytvárania rôznych neurónových sietí a vyberie tú najlepšiu (inak je táto úloha riešená dlhým procesom „pokusov a omylov“ a vyžaduje si vážne znalosti teórie);

    Najmodernejšie, optimalizované a výkonné sieťové tréningové algoritmy (vrátane metód konjugovaných gradientov, Levenberg-Marquardtov algoritmus, BFGS, Kohonenov algoritmus); plná kontrola nad všetkými parametrami ovplyvňujúcimi kvalitu siete, ako sú aktivačné a chybové funkcie, zložitosť siete;

    Podpora súborov neurónových sietí a architektúr neurónových sietí takmer neobmedzenej veľkosti;

    Bohaté grafické a štatistické možnosti, ktoré uľahčujú interaktívnu prieskumnú analýzu;

    Plná integrácia so systémom STATISTICA; všetky výsledky, grafy, správy atď. je možné ďalej upravovať pomocou výkonných grafických a analytických nástrojov STATISTICA(napríklad na analýzu predpokladaných zvyškov, vytvorenie podrobnej správy atď.);

    Bezproblémová integrácia s výkonnými automatizovanými nástrojmi STATISTICA; zaznamenávanie plnohodnotných makier pre akúkoľvek analýzu; vytváranie vlastných analýz a aplikácií neurónových sietí STATISTICA Výzva Visual Basic STATISTICA Automatizované neurónové siete z akejkoľvek aplikácie, ktorá podporuje technológiu COM (napríklad automatická analýza neurónovej siete v tabuľkovom procesore MS Excel alebo kombinácia niekoľkých vlastných aplikácií napísaných v C, C++, C#, Java atď.).

  • Výber z najpopulárnejších sieťových architektúr, vrátane viacvrstvových perceptrónov, radiálnych základných funkcií a máp samoorganizujúcich sa prvkov.
  • Nástroj k dispozícii Automatické vyhľadávanie v sieti, ktorý umožňuje automaticky vytvárať rôzne architektúry neurónových sietí a regulovať ich zložitosť.
  • Zachovanie najlepších neurónových sietí.

    Podpora rôznych typov štatistických analýz a konštrukcie prediktívnych modelov, vrátane regresie, klasifikácie, časových radov so spojitou a kategoricky závislou premennou, zhlukovej analýzy na redukciu dimenzionality a vizualizácie.

    Podporuje načítanie a analýzu viacerých modelov.

  • Voliteľná možnosť generovania zdrojového kódu v C, C++, C#, Java, PMML (Predictive Model Markup Language), ktorý je možné jednoducho integrovať do externého prostredia a vytvárať tak vlastné aplikácie.

Generátor kódu

Generátor kódu STATISTICA Automatizované neurónové siete dokáže generovať zdrojový systémový programový kód pre modely neurónových sietí v C, Java a PMML (Predictive Model Markup Language). Generátor kódu je doplnková aplikácia k systému STATISTICA Automatizované neurónové siete, ktorá umožňuje užívateľom na základe analýzy neurónovej siete vygenerovať C alebo Java súbor so zdrojovým kódom modelov a integrovať ho do nezávislých externých aplikácií.

    Vyžaduje generátor kódu STATISTICA Automatizované neurónové siete.

    Generuje verziu zdrojového kódu neurónovej siete (ako súbor v C, C++, C# alebo Java).

    Súbor s kódom C alebo Java možno potom vložiť do externých programov.

STATISTICAAutomatizované Neurálne siete vo výpočtovej technike neurónových sietí

Použitie neurónových sietí zahŕňa oveľa viac ako len spracovanie údajov pomocou metód neurónových sietí.

STATISTICA automatizované neurónové siete (SANN) poskytuje množstvo funkcií pre prácu s veľmi zložitými úlohami, vrátane nielen najnovších Architektúry neurónových sietí A Algoritmy učenia, ale aj nové prístupy ku konštrukcii architektúr neurónových sietí s možnosťou enumerácie rôznych aktivačných a chybových funkcií, čo uľahčuje interpretáciu výsledkov. Okrem toho vývojári softvéru a používatelia experimentujúci s nastaveniami aplikácie ocenia skutočnosť, že po vykonaní špecifikovaných experimentov v jednoduchom a intuitívnom rozhraní STATISTICA automatizované neurónové siete (SANN) Analýzy neurónových sietí je možné kombinovať do vlastnej aplikácie. Dá sa to dosiahnuť buď pomocou knižnice funkcií COM STATISTICA, ktorý plne odráža všetku funkcionalitu programu, alebo pomocou kódu v C/C++, ktorý program generuje a pomáha spustiť plne natrénovanú neurónovú sieť.

modul STATISTICA Automatizované neurónové siete plne integrovaná so systémom STATISTICA K dispozícii je teda obrovský výber nástrojov na úpravu (prípravu) údajov na analýzu (transformácie, podmienky výberu pozorovaní, nástroje na kontrolu údajov atď.).

Ako všetky testy STATISTICA, program môže byť „pripojený“ k vzdialenej databáze pomocou nástrojov na spracovanie na mieste alebo prepojený so živými údajmi, takže modely sú trénované alebo spúšťané (napríklad na výpočet predpokladaných hodnôt alebo klasifikácie) automaticky pri každej zmene údajov .

Škálovanie údajov a konverzia nominálnej hodnoty

Pred vložením údajov do siete je potrebné ich určitým spôsobom pripraviť. Rovnako dôležité je, aby sa výstupné údaje dali správne interpretovať. IN STATISTICA automatizované neurónové siete (SANN) je možné automaticky škálovať vstupné a výstupné údaje; Premenné s nominálnymi hodnotami možno tiež automaticky prekódovať (napríklad Pohlavie=(Muž,Žena)) vrátane použitia metódy kódovania 1-z-N. STATISTICA automatizované neurónové siete (SANN) obsahuje aj nástroje na prácu s chýbajúcimi údajmi. Existujú nástroje na prípravu a interpretáciu údajov špeciálne navrhnuté pre analýzu časových radov. Široká škála podobných nástrojov je tiež implementovaná v STATISTICA.

V klasifikačných problémoch je možné nastaviť intervaly spoľahlivosti, ktoré STATISTICA automatizované neurónové siete (SANN) sa potom používa na priradenie pozorovaní k jednej alebo druhej triede. V kombinácii so špeciálnym implementovaným v STATISTICA automatizované neurónové siete (SANN) aktivačná funkcia Softmax a chybové funkcie krížovej entropie poskytujú základný teoretický prístup ku klasifikačným problémom.

Výber modelu neurónovej siete, súbory neurónových sietí

Rôznorodosť modelov neurónových sietí a množstvo parametrov, ktoré je potrebné nastaviť (veľkosť siete, parametre učiaceho sa algoritmu atď.), môže niektorých používateľov zmiasť. Ale to je dôvod, prečo existuje nástroj na automatické vyhľadávanie neurónových sietí, , ktorý dokáže automaticky vyhľadať vhodnú sieťovú architektúru ľubovoľnej zložitosti, pozri nižšie. V systéme STATISTICA automatizované neurónové siete (SANN) Boli implementované všetky hlavné typy neurónových sietí používané pri riešení praktických problémov, vrátane:

    viacvrstvové perceptróny (siete s priamym prenosom signálu);

    siete založené na funkciách radiálnej bázy;

    samoorganizujúce sa Kohonenove mapy.

Vyššie uvedené architektúry sa používajú v problémoch regresie, klasifikácie, časových radov (so spojitou alebo kategoricky závislou premennou) a klastrovania.

Navyše v systéme STATISTICA automatizované neurónové siete (SANN) implementovaná Sieťové súbory, vytvorený z náhodných (ale významných) kombinácií vyššie uvedených sietí. Tento prístup je užitočný najmä pre hlučné a nízkorozmerné dáta.

V balení STATISTICA automatizované neurónové siete (SANN) K dispozícii je množstvo nástrojov, ktoré pomôžu používateľovi vybrať vhodnú sieťovú architektúru. K štatistickým a grafickým nástrojom systému patria histogramy, matice a chybové grafy pre celú populáciu a pre jednotlivé pozorovania, konečné údaje o správnom/nesprávnom zaradení a všetky dôležité štatistiky, napríklad vysvetlený podiel rozptylu, sa počítajú automaticky.

Na vizualizáciu údajov v balíku STATISTICA automatizované neurónové siete (SANN) Scatterplots a 3D reakčné povrchy sú implementované, aby pomohli používateľovi pochopiť „správanie“ siete.

Všetky informácie získané z uvedených zdrojov môžete samozrejme použiť na ďalšiu analýzu inými spôsobmi. STATISTICA, ako aj na následné zaradenie do prehľadov alebo na prispôsobenie.

STATISTICA automatizované neurónové siete (SANN) automaticky si zapamätá najlepšiu sieťovú možnosť z tých, ktoré ste dostali počas experimentovania s úlohou, a môžete sa na ňu kedykoľvek odvolať. Užitočnosť siete a jej prediktívna schopnosť sa automaticky testuje na špeciálnom testovacom súbore pozorovaní, ako aj odhadom veľkosti siete, jej efektívnosti a nákladov na nesprávnu klasifikáciu. Implementované v r STATISTICA automatizované neurónové siete (SANN) Postupy automatického krížového overenia a regulácie váhy vám umožňujú rýchlo určiť, či je vaša sieť pre danú úlohu nedostatočne alebo príliš komplikovaná.

Na zlepšenie výkonu v balíku STATISTICA Automatizované neurónové siete K dispozícii je množstvo možností konfigurácie siete. Môžete teda zadať lineárnu výstupnú sieťovú vrstvu v regresných problémoch alebo aktivačnú funkciu softmax v problémoch pravdepodobnostného odhadu a klasifikácie. Systém tiež implementuje chybové funkcie krížovej entropie založené na modeloch informačnej teórie a množstvo špeciálnych aktivačných funkcií, vrátane identických, exponenciálnych, hyperbolických, logistických (sigmoidných) a sínusových funkcií pre skryté aj výstupné neuróny.

Automatizovaná neurónová sieť (automatické vyhľadávanie a výber rôznych architektúr neurónových sietí)

Súčasť balenia STATISTICA automatizované neurónové siete (SANN) je nástroj na automatické vyhľadávanie neurónových sietí, Automatizovaná neurónová sieť (ANN) - Automatické vyhľadávanie v sieti (ANS), ktorá hodnotí mnoho neurónových sietí rôznej architektúry a zložitosti a vyberá siete najlepšej architektúry pre danú úlohu.

Pri vytváraní neurónovej siete sa značný čas vynakladá na výber vhodných premenných a optimalizáciu architektúry siete pomocou heuristického vyhľadávania. STATISTICA automatizované neurónové siete (SANN) prevezme túto prácu a automaticky za vás vykoná heuristické vyhľadávanie. Tento postup berie do úvahy vstupný rozmer, typ siete, rozmery siete, aktivačné funkcie a dokonca aj požadované funkcie výstupnej chyby.

Je to mimoriadne efektívny nástroj pri používaní zložitých techník, ktorý vám umožňuje automaticky nájsť najlepšiu sieťovú architektúru. Namiesto toho, aby ste trávili hodiny sedením pred počítačom, nechajte systém STATISTICA automatizované neurónové siete (SANN) urob túto prácu za vás.

Úspech vašich experimentov na nájdenie najlepšieho typu a architektúry siete výrazne závisí od kvality a rýchlosti algoritmov sieťového učenia. V systéme STATISTICA automatizované neurónové siete (SANN) Boli implementované doteraz najlepšie školiace algoritmy.

V systéme STATISTICA automatizované neurónové siete (SANN) Boli implementované dva rýchle algoritmy druhého rádu - metódy konjugovaného gradientu a algoritmus BFGS. Ten je mimoriadne výkonný moderný nelineárny optimalizačný algoritmus a odborníci ho dôrazne odporúčajú používať. Existuje aj zjednodušená verzia algoritmu BFGS, ktorá vyžaduje menej pamäte, ktorú systém využíva, keď sú možnosti RAM počítača dosť obmedzené. Tieto algoritmy majú tendenciu konvergovať rýchlejšie a produkovať presnejšie riešenie ako presné algoritmy prvého rádu, ako je Gradient Descent.

Iteračný proces sieťového tréningu v systéme STATISTICA automatizované neurónové siete (SANN) je sprevádzané automatickým zobrazením aktuálnej tréningovej chyby a chyby vypočítanej nezávisle na testovacej zostave a zobrazuje sa aj graf celkovej chyby. Tréning môžete kedykoľvek prerušiť jednoduchým stlačením tlačidla. Okrem toho je možné nastaviť podmienky zastavenia, pri ktorých sa tréning preruší; takouto podmienkou môže byť napríklad dosiahnutie určitej chybovosti, alebo stabilný nárast chyby testu pri danom počte prechodov – „epoch“ (čo naznačuje tzv. preškolenie siete). Ak dôjde k nadmernej montáži, používateľovi by to malo byť jedno: STATISTICA automatizované neurónové siete (SANN) automaticky si zapamätá inštanciu najlepšej siete získanej počas tréningového procesu a táto možnosť siete je vždy prístupná kliknutím na príslušné tlačidlo. Po dokončení školenia siete môžete skontrolovať kvalitu jej práce na samostatnej testovacej súprave.

Po zaškolení siete musíte skontrolovať kvalitu jej práce a určiť jej vlastnosti. Na tento účel v balení STATISTICA automatizované neurónové siete (SANN) K dispozícii je sada štatistík na obrazovke a grafických nástrojov.

V prípade, že je špecifikovaných niekoľko modelov (sietí a súborov), potom (ak je to možné) STATISTICA automatizované neurónové siete (SANN) zobrazí porovnávacie výsledky (napríklad vynesie krivky odozvy viacerých modelov do jedného grafu alebo prezentuje prediktory viacerých modelov v jednej tabuľke). Táto vlastnosť je veľmi užitočná na porovnávanie rôznych modelov trénovaných na rovnakom súbore údajov.

Všetky štatistiky sú vypočítané samostatne pre tréningové, validačné a testovacie sady alebo v akejkoľvek ich kombinácii, podľa uváženia užívateľa.

Automaticky sa vypočítajú nasledujúce súhrnné štatistiky: stredná kvadratická chyba siete, takzvaná konfúzna matica pre klasifikačné problémy (kde sú sčítané všetky prípady správnej a nesprávnej klasifikácie) a korelácie pre regresné problémy. Sieť Kohonen má okno Topologická mapa, v ktorom môžete vizuálne sledovať aktiváciu sieťových prvkov.

Hotové riešenia (vlastné aplikácie využívajúce STATISTICA Automatizované neurónové siete)

Jednoduché a pohodlné systémové rozhranie STATISTICA automatizované neurónové siete (SANN) umožňuje rýchlo vytvárať aplikácie neurónovej siete na riešenie vašich problémov.

Môže nastať situácia, keď je potrebné integrovať tieto riešenia do existujúceho systému, napríklad ich urobiť súčasťou širšieho výpočtového prostredia (môže ísť o postupy vyvinuté samostatne a zabudované do podnikového výpočtového systému).

Trénované neurónové siete možno použiť na nové množiny údajov (na predikciu) niekoľkými spôsobmi: Trénované siete môžete uložiť a potom ich použiť na nový súbor údajov (na predikciu, klasifikáciu alebo prognózovanie); Môžete použiť generátor kódu na automatické generovanie programového kódu v C (C++, C#) alebo Visual Basic a potom ho použiť na predpovedanie nových údajov v akomkoľvek vizuálnom základnom alebo C++ (C#) programovacom prostredí, t. j. na vloženie plne vyškolenej neurónovej siete do vášho aplikácie. Na záver všetky funkcie systému STATISTICA, počítajúc do toho STATISTICA automatizované neurónové siete (SANN), možno použiť ako objekty COM (Component Object Model) v iných aplikáciách (napríklad Java, MS Excel, C#, VB.NET atď.). Môžete napríklad implementovať automatizovanú analýzu vytvorenú pomocou STATISTICA automatizované neurónové siete (SANN) do tabuliek MS Excel.

Zoznam algoritmov učenia

    Gradientný zostup

    Konjugované gradienty

    Kohonenov tréning

    Metóda K-Means pre sieť s radiálnou bázou

Obmedzenia veľkosti siete

Neurónová sieť môže mať takmer akúkoľvek veľkosť (to znamená, že jej rozmery môžu byť mnohonásobne väčšie, než je skutočne potrebné a rozumné); pre sieť viacvrstvových perceptrónov je povolená jedna skrytá vrstva neurónov. V skutočnosti je pri akýchkoľvek praktických úlohách program obmedzený iba hardvérovými možnosťami počítača.

e-Manuál

Ako súčasť systému STATISTICA automatizované neurónové siete (SANN) existuje dobre ilustrovaná učebnica, ktorá poskytuje úplný a jasný úvod do neurónových sietí, ako aj príklady. Systém podrobnej, kontextovej pomoci je dostupný z každého dialógového okna.

Generátor zdrojového kódu

Generátor zdrojového kódu je doplnkový produkt, ktorý umožňuje používateľom jednoducho vytvárať vlastné aplikácie založené na systéme STATISTICA automatizované neurónové siete (SANN). Tento doplnkový produkt vytvára zdrojový systémový kód modelu neurónovej siete (ako súbor v C, C++, C# alebo Java), ktorý je možné samostatne skompilovať a integrovať do vášho programu na bezplatnú distribúciu. Tento produkt je navrhnutý špeciálne pre vývojárov podnikových systémov, ako aj tých používateľov, ktorí potrebujú transformovať vysoko optimalizované postupy vytvorené v STATISTICA automatizované neurónové siete (SANN) do externých aplikácií na riešenie zložitých analytických problémov. (Treba poznamenať, že na získanie povolenia musia používatelia informovať zamestnancov sitessia o distribúcii programov pomocou vygenerovaného kódu).

V STATISTICA je problém kontinuálneho predpovedania reprezentovaný ako regresný problém. V kontexte tohto problému je neurónová sieť považovaná za nelineárnu funkciu, ktorej zložitosť je riadená „semiparametricky“ – počet prvkov v sieti ovplyvňuje zložitosť riešenia, ale, samozrejme, analytik nemôže vidieť explicitnú formu regresnej funkcie.

Vyžaduje sa vybudovanie neurónovej siete, ktorá počíta emisie olova do atmosféry v závislosti od počtu a typu prechádzajúceho transportu. Dáta sú uložené v súbore Lead.xls.

Otvorte súbor Svinets.xls v balíku Statistica. Zobrazí sa okno Open File.

Ryža. 4. 33. Okno importu.

Musíte vybrať možnosť „Importovať vybratý hárok“ a vybrať názov údajového hárka:

Ryža. 4. 34. Výber excelového hárku na import do balíka Statistica.

V ďalšom okne je potrebné zadať parametre skutočných údajov, ktoré sa spravidla určujú a zobrazujú automaticky (okrem posledných troch zaškrtávacích políčok).

Ryža. 4. 35. Nastavenie oblasti importu.

Potom sa importované údaje zobrazia v okne.

Ryža. 4. 36. Výsledky importu.

Spustite analytický balík pomocou neurónových sietí. Ak to chcete urobiť, v ponuke „Analýza“ vyberte „Neurónové siete“.

Ryža. 4. 37. Výber spôsobu spracovania údajov – „neurónová sieť“.

potom sa zobrazí okno balíka STATISTICA Neural Networks:

Ryža. 4. 38. Štartovacie okno pre analýzu „neurónových sietí“.

Prejdite na kartu „Rýchle“, kde musíte nastaviť typ úlohy - Regresia a nástroj - Návrhár siete.

Ryža. 4. 39. Spustenie návrhára neurónovej siete.

Ďalej kliknutím na tlačidlo „OK“ prejdete do režimu výberu výstupných (závislých) a vstupných (nezávislých) premenných. Ako prvé vyberieme „Lead“ a ako posledné vyberieme počet áut všetkých kategórií. Stĺpce „Nie“ a „Ulica“ zostávajú nevyužité.

Ryža. 4. 40. Výber vstupných a výstupných dát pre neurónovú sieť.

Kliknutím na „OK“ sa vrátite na kartu „Rýchle“. Potom opätovným kliknutím na tlačidlo „OK“ sa dostanete do okna vytvorenia neurónovej siete. Na karte „Rýchle“ musíte vybrať typ siete - viacvrstvový perceptrón,

Ryža. 4. 41. Výber typu neurónovej siete.

a na karte „Prvky“ môžete zadať požadovaný počet vrstiev, počet neurónov v každej z nich, ako aj typ aktivačnej funkcie:

Ryža. 4. 42. Nastavenie počtu vrstiev a typov neurónov.

Ryža. 4. 43. Výber metódy na trénovanie neurónovej siete.

Tu môžete kliknutím na tlačidlo „Vzorky“ nastaviť počet tréningových, kontrolných a testovacích príkladov. Ak nastavíte počet testovacích a kontrolných príkladov na nulu, potom bude sieť trénovaná pomocou všetkých príkladov:

Ryža. 4. 44. Určite údaje pre školenie a testovanie.

Po návrate do hlavného okna tréningu môžete kliknúť na tlačidlo „Používateľ“ a prejsť na kartu „Interaktívne“ a požiadať, aby sa tréningový proces prejavil vo forme grafu:

Ryža. 4. 45. Určenie typu grafu na demonštráciu procesu učenia.

Nakoniec kliknutím na tlačidlo „OK“ spustíte proces učenia, ktorého výsledok sa zobrazí v grafe:

Ryža. 4. 46. Tréning neurónovej siete.

Kliknutím na tlačidlo „OK“ sa dostanete do okna výsledkov, kde môžete študovať rôzne charakteristiky vytvorenej siete pohybom cez karty okna:

Ryža. 4. 47. Výsledky modelovania neurónových sietí.

Napríklad na karte „Rozšírené“ je tlačidlo „Architektúra siete“, kliknutím na ktoré môžete vidieť topológiu vybudovanej siete:

Ryža. 4. 48. Pohľad na vybudovanú neurónovú sieť.

ako aj tlačidlo „User Observations“, kde môžete dať sieti nové počiatočné údaje a dostať odpoveď z už vyškolenej siete.

Aké sú podobnosti a rozdiely medzi jazykmi neuropočítačov a štatistikou pri analýze údajov? Pozrime sa na jednoduchý príklad.

Predpokladajme, že máme pozorovania a experimentálne merané N dvojice bodov predstavujúce funkčný vzťah. Ak sa pokúsite nakresliť čo najlepšiu priamku cez tieto body, čo v jazyku štatistiky bude znamenať použitie na opis neznámej závislosti lineárny model

(kde označuje hluk počas pozorovania), potom riešenie zodpovedajúceho problému lineárna regresia sa zredukuje na nájdenie odhadovaných hodnôt parametrov, ktoré minimalizujú súčet kvadratických zvyškov.

Ak sa nájdu parametre, potom je možné odhadnúť hodnotu r za akúkoľvek hodnotu X, teda realizovať interpolácia A extrapoláciaúdajov.

Rovnaký problém možno vyriešiť pomocou jednovrstvovej siete s jedným vstupom a jedným lineárne výstupný neurón. Hmotnosť odkazu a a prah b možno získať minimalizáciou rovnakej hodnoty rezídua (ktorá sa v tomto prípade bude nazývať stredná odmocnina omyl) počas školenia siete, napríklad pomocou metódy spätného šírenia. Vlastnosť neurónovej siete zovšeobecňovanie sa potom použije na predpovedanie výstupnej hodnoty zo vstupnej hodnoty.

Obrázok 25. Lineárna regresia a jednovrstvový perceptrón, ktorý ju implementuje.

Pri porovnaní týchto dvoch prístupov okamžite udrie do očí, že pri popise ich metód oslovuje štatistika vzorce A rovníc a neurocomputing grafický popis neurónových architektúr.

1 Ak si spomenieme, že ľavá hemisféra pracuje so vzorcami a rovnicami a pravá hemisféra s grafickými obrázkami, potom môžeme pochopiť, že v porovnaní so štatistikou, “ pravá hemisféra“prístup neurónovej siete.

Ďalším podstatným rozdielom je, že pri štatistických metódach nezáleží na tom, ako sa odchýlka minimalizuje – v každom prípade Model zostáva rovnaký, zatiaľ čo pre neuropočítače zohráva hlavnú úlohu vyučovacia metóda. Inými slovami, na rozdiel od prístupu neurónových sietí, odhad parametrov modelu pre štatistické metódy nezávisí od metódy minimalizácie. Štatistici zároveň zvážia zmeny v type rezidua, povedzme o

Ako zásadná zmena modelu.

Na rozdiel od prístupu neurónových sietí, v ktorom sa väčšina času venuje trénovaniu sietí, pri štatistickom prístupe je tento čas venovaný dôkladnej analýze problému. Využíva odbornosť štatistikov na výber modelu na základe analýzy údajov a informácií špecifických pre danú oblasť. Použitie neurónových sietí - týchto univerzálnych aproximátorov - sa zvyčajne uskutočňuje bez použitia apriórnych znalostí, aj keď v niektorých prípadoch je to veľmi užitočné. Napríklad pre uvažovaný lineárny model vedie použitie strednej kvadratickej chyby k získaniu optimálneho odhadu jeho parametrov, keď má hodnota šumu normálne rozdelenie s rovnakým rozptylom pre všetky tréningové dvojice. Zároveň, ak je známe, že tieto odchýlky sú odlišné, potom pomocou vážený chybové funkcie

môže poskytnúť výrazne lepšie hodnoty parametrov.

Okrem najjednoduchšieho uvažovaného modelu môžeme uviesť príklady iných, v istom zmysle ekvivalentných modelov štatistík a paradigiem neurónových sietí.

Tabuľka 3. Podobné techniky

Hopfieldova sieť má zjavnú súvislosť s klastrovaním údajov a faktorovou analýzou.

1 Faktorová analýza používané na štúdium štruktúryúdajov. Jeho hlavným predpokladom je predpoklad existencie takýchto znakov - faktory, ktorú nemožno pozorovať priamo, ale možno ju posúdiť niekoľkými pozorovateľnými primárnymi charakteristikami. Napríklad znaky ako napr objem výroby A náklady na fixné aktíva, môže určiť taký faktor ako rozsah výroby. Na rozdiel od neurónových sietí, ktoré vyžadujú tréning, faktorová analýza môže pracovať len s určitým počtom pozorovaní. Aj keď v zásade by počet takýchto pozorovaní mal byť len o jeden väčší ako počet premenných, odporúča sa použiť aspoň trojnásobok počtu hodnôt. To sa stále považuje za menej ako veľkosť trénovacej vzorky pre neurónovú sieť. Štatistici preto poukazujú na výhodu faktorovej analýzy v používaní menšieho množstva údajov, čo vedie k rýchlejšiemu generovaniu modelov. Okrem toho to znamená, že implementácia metód faktorovej analýzy vyžaduje menej výkonné výpočtové nástroje. Ďalšou výhodou faktorovej analýzy je, že ide o metódu white-box, t.j. úplne otvorené a zrozumiteľné - používateľ môže ľahko pochopiť, prečo model vytvára konkrétny výsledok. Súvislosť medzi faktorovou analýzou a Hopfieldovým modelom je možné vidieť pri pripomenutí minimálnych bázových vektorov pre súbor pozorovaní (pamäťové obrázky – pozri kapitolu 5). Práve tieto vektory sú analógmi faktorov, ktoré spájajú rôzne zložky pamäťových vektorov - primárne charakteristiky.

1 Logistická regresia je binárna klasifikačná metóda široko používaná vo finančnom rozhodovaní. Umožňuje odhadnúť pravdepodobnosť realizácie (alebo nerealizácie) nejakej udalosti v závislosti od hodnôt niektorých nezávislých premenných - prediktorov: x 1,...,x N. V modeli logistickej regresie má táto pravdepodobnosť analytickú formu: Pr( X) =(1+exp(-z))-1, kde z = a 0 + a 1 x 1 +...+ a N x N. Jeho analógom neurónovej siete je zjavne jednovrstvový perceptrón s nelineárnym výstupným neurónom. Vo finančných aplikáciách sa logistická regresia uprednostňuje pred multivariabilnou lineárnou regresiou a diskriminačnou analýzou z mnohých dôvodov. Najmä automaticky zaisťuje, že pravdepodobnosť patrí do intervalu a kladie menšie obmedzenia na rozdelenie hodnôt prediktorov. To je veľmi dôležité, pretože rozdelenie hodnôt finančných ukazovateľov vo forme pomerov zvyčajne nie je normálne a je „veľmi skreslené“. Výhodou neurónových sietí je, že im táto situácia nerobí problém. Neurónové siete sú navyše necitlivé na koreláciu hodnôt prediktorov, pričom metódy na odhad parametrov regresného modelu v tomto prípade často dávajú nepresné hodnoty.

Anotácia: Neurónové siete a štatistiky. Neurónové siete a fuzzy logika. Neurónové siete a expertné systémy. Neurónové siete a štatistická fyzika.

Zvieratá sa delia na:

  1. patriaci cisárovi,
  2. zabalzamovaný,
  3. skrotený,
  4. prísavky,
  5. sirény,
  6. báječné,
  7. jednotlivé psy,
  8. zahrnuté do tejto klasifikácie,
  9. pobehovať ako blázon
  10. nespočetné množstvo,
  11. maľované najjemnejšou štetkou z ťavej srsti,
  12. iní,
  13. rozbil vázu s kvetmi,
  14. z diaľky pripomínajúce muchy.

H. L. Borges, "Analytický jazyk Johna Wilkinsa"

Neurocomputing má množstvo styčných bodov s inými disciplínami a ich metódami. Najmä teória neurónových sietí využíva aparát štatistickej mechaniky a teórie optimalizácie. Oblasti aplikácie neuropočítačov sa niekedy silne prekrývajú alebo takmer zhodujú s oblasťami aplikácie matematickej štatistiky, teórie fuzzy množín a expertných systémov. Prepojenia a paralely neuropočítačov sú mimoriadne rozmanité a naznačujú jeho univerzálnosť. V tejto prednáške, ktorú možno považovať za doplnkovú, keďže si vyžaduje o niečo väčšiu matematickú prípravu, si povieme len o najdôležitejších z nich.

Neurónové siete a štatistiky

Keďže neurónové siete sa dnes úspešne využívajú na analýzu dát, je vhodné ich porovnať so staršími, dobre vyvinutými štatistickými metódami. V literatúre o štatistikách sa občas môžete stretnúť s tvrdením, že najčastejšie používané prístupy neurónových sietí nie sú ničím iným ako neúčinnou regresiou a diskriminačnými modelmi. Už sme to poznamenali predtým viacvrstvové neurónové siete môže skutočne vyriešiť problémy ako regresia a klasifikácia. Po prvé, spracovanie údajov neurónovými sieťami je oveľa rozmanitejšie – spomeňme si napríklad na aktívnu klasifikáciu Hopfieldovými sieťami alebo Kohonenove mapy funkcií, ktoré nemajú štatistické analógie. Po druhé, mnohé štúdie týkajúce sa využitia neurónových sietí vo financiách a obchode odhalili ich výhody oproti predtým vyvinutým štatistickým metódam. Pozrime sa bližšie na výsledky porovnania metód neurónových sietí a matematickej štatistiky.

Sú neurónové siete popisným jazykom?

Ako už bolo uvedené, niektorí štatistici tvrdia, že prístupy neurónových sietí k spracovaniu údajov sú jednoducho znovuobjavené a preformulované, ale dobre známe štatistické metódy analýzy. Inými slovami, neurocomputing jednoducho používa nový jazyk na opis starých vedomostí. Ako príklad uvádzam citát od Warrena Searla:

Mnohí výskumníci neurónových sietí sú inžinieri, fyzici, neurovedci, psychológovia alebo počítačoví vedci, ktorí vedia málo o štatistike a nelineárnej optimalizácii. Výskumníci neurónových sietí neustále nanovo objavujú metódy, ktoré sú v matematickej a štatistickej literatúre známe už desaťročia a stáročia, no často sa ocitnú v situácii, že nedokážu pochopiť, ako tieto metódy fungujú.

Tento pohľad sa na prvý pohľad môže zdať rozumný. Formalizmus neurónových sietí môže skutočne tvrdiť, že je univerzálnym jazykom. Nie je náhoda, že už v priekopníckej práci McCullocha a Pittsa sa ukázalo, že popis neurónovej siete je ekvivalentný popisu výrokovej logiky.

V skutočnosti som zistil, že pomocou techniky, ktorú som vyvinul v článku z roku 1961 (...), dokážem ľahko odpovedať na všetky otázky, ktoré mi vedci v oblasti mozgu (...) alebo počítačoví vedci položili. Ako fyzik som však dobre vedel, že teória, ktorá všetko vysvetľuje, vlastne nič nevysvetľuje: v najlepšom prípade je to jazyk. Eduardo Cayanello

Nie je preto prekvapujúce, že štatistici často zisťujú, že pojmy, ktoré poznajú, majú svoje analógie v teórii neurónových sietí. Warren Searle zostavil malý slovník pojmov používaných v týchto dvoch oblastiach.

Tabuľka 11.1. Slovník podobných výrazov
Neurálne siete Štatistické metódy.
Známky premenné
vstupy nezávislé premenné
výstupy predpovedané hodnoty
cieľové hodnoty závislých premenných
chyba zvyškový
tréning, adaptácia, sebaorganizácia stupňa
chybová funkcia, Lyapunovova funkcia hodnotiace kritérium
tréningové obrázky (páry) pozorovania
parametre siete: váhy, prahy. Odhadované parametre
neuróny vysokého rádu interakcia
funkčné spojenia transformácia
učenie pod dohľadom alebo heteroasociácia regresná a diskriminačná analýza
učenie bez dozoru alebo automatické priraďovanie kompresiu dát
konkurenčné učenie, adaptívne vektorové kvantovanie zhluková analýza
zovšeobecňovanie interpolácia a extrapolácia
Aký je rozdiel medzi neurónovými sieťami a štatistikami?

Aké sú podobnosti a rozdiely medzi jazykmi neuropočítačov a štatistikou pri analýze údajov? Pozrime sa na jednoduchý príklad.

Predpokladajme, že sme vykonali pozorovania a experimentálne zmerali N párov bodov reprezentujúcich funkčnú závislosť. Ak sa pokúsime nakresliť najlepšiu priamku cez tieto body, čo v jazyku štatistiky bude znamenať použitie lineárneho modelu na opísanie neznámej závislosti , (kde označuje šum počas pozorovania), potom riešenie zodpovedajúceho problému lineárnej regresie bude zredukované na nájdenie odhadovaných hodnôt parametrov, ktoré minimalizujú súčet kvadratických zvyškov.

Ak sa parametre nájdu, potom je možné odhadnúť hodnotu y pre ľubovoľnú hodnotu x, to znamená interpolovať a extrapolovať údaje.

Rovnaký problém je možné vyriešiť pomocou jednovrstvová sieť s jedným vstupným a jedným lineárnym výstupným neurónom. Váhu spojenia a a prah b možno získať minimalizáciou rovnakého množstva zvyškov (ktoré sa v tomto prípade nazývajú stredná kvadratická chyba) počas trénovania siete, napríklad pomocou metódy spätného šírenia. Na predpovedanie výstupnej hodnoty zo vstupnej hodnoty sa použije vlastnosť zovšeobecnenia neurónovej siete.


Ryža. 11.1.

Pri porovnaní týchto dvoch prístupov vás okamžite upúta to, že pri popise ich metód sa štatistika odvoláva na vzorce a rovnice a neurocomputing odkazuje na grafický popis neurónových architektúr.

Ak si spomenieme, že ľavá hemisféra pracuje so vzorcami a rovnicami a pravá hemisféra s grafickými obrázkami, potom môžeme pochopiť, že v porovnaní so štatistikou sa opäť objavuje „pravá hemisféra“ prístupu neurónovej siete.

Ďalším podstatným rozdielom je, že pri štatistických metódach nezáleží na tom, ako sa odchýlka minimalizuje – v každom prípade model zostáva rovnaký, zatiaľ čo pri neurocomputingu hrá hlavnú úlohu práve tréningová metóda. Inými slovami, na rozdiel od prístupu neurónových sietí, odhad parametrov modelu pre štatistické metódy nezávisí od minimalizačná metóda. Štatistici zároveň zvážia zmeny v type rezidua, povedzme o

Ako zásadná zmena modelu.

Na rozdiel od prístupu neurónových sietí, v ktorom sa väčšina času venuje trénovaniu sietí, pri štatistickom prístupe je tento čas venovaný dôkladnej analýze problému. Využíva odbornosť štatistikov na výber modelu na základe analýzy údajov a informácií špecifických pre danú oblasť. Použitie neurónových sietí - týchto univerzálnych aproximátorov - sa zvyčajne uskutočňuje bez použitia apriórnych znalostí, aj keď v niektorých prípadoch je to veľmi užitočné. Napríklad pre uvažovaný lineárny model vedie použitie strednej kvadratickej chyby k získaniu optimálneho odhadu jeho parametrov, keď má hodnota šumu normálne rozdelenie s rovnakým rozptylom pre všetky tréningové dvojice. Súčasne, ak je známe, že tieto odchýlky sú odlišné, potom pomocou funkcie váženej chyby

Môže poskytnúť výrazne lepšie hodnoty parametrov.

Okrem najjednoduchšieho uvažovaného modelu môžeme uviesť príklady iných, v istom zmysle ekvivalentných modelov štatistík a paradigiem neurónových sietí.

Hopfieldova sieť má zjavnú súvislosť s klastrovaním údajov a faktorovou analýzou.

Faktorová analýza Používa sa na štúdium štruktúry údajov. Jeho hlavným predpokladom je predpoklad existencie takých znakov – faktorov, ktoré nemožno pozorovať priamo, ale možno ich posúdiť niekoľkými pozorovateľnými primárnymi znakmi. Napríklad také charakteristiky, ako je objem výroby a náklady na fixné aktíva, môžu určiť taký faktor, akým je rozsah výroby. Na rozdiel od neurónových sietí, ktoré vyžadujú tréning, faktorová analýza môže pracovať len s určitým počtom pozorovaní. Aj keď v zásade by počet takýchto pozorovaní mal byť len o jeden väčší ako počet premenných, odporúča sa použiť aspoň trojnásobok počtu hodnôt. To sa stále považuje za menej ako veľkosť trénovacej vzorky pre neurónovú sieť. Štatistici preto poukazujú na výhodu faktorovej analýzy v používaní menšieho množstva údajov, čo vedie k rýchlejšiemu generovaniu modelov. Okrem toho to znamená, že implementácia metód faktorovej analýzy vyžaduje menej výkonné výpočtové nástroje. Ďalšou výhodou faktorovej analýzy je, že ide o metódu white-box, t.j. úplne otvorené a zrozumiteľné - používateľ môže ľahko pochopiť, prečo model vytvára konkrétny výsledok. Súvislosť medzi faktorovou analýzou a Hopfieldovým modelom možno vidieť pripomenutím vektorov minimálny základ pre súbor pozorovaní (pamäťové obrázky – pozri 5. prednášku). Práve tieto vektory sú analógmi faktorov, ktoré spájajú rôzne zložky pamäťových vektorov - primárne charakteristiky.

Počas určitej histórie monitorovania pacientov sa nahromadilo množstvo údajov, ktoré sú uložené v tabuľke v systéme STATISTICA. Príslušná tabuľka údajov je znázornená na obrázku 6.

Obrázok 6. Fragment tabuľky zdrojových údajov

Účelom štúdie je vybudovať model neurónovej siete, ktorý by na základe daného súboru počiatočných údajov (údaje o vyšetrení pacienta, výsledky testov, liečba pred prijatím) na základe liečby predpísanej v nemocnici vytvoril prognózu jeho liečby (hodnoty prijatia do nemocnice I-APFARA, BAB, BKK, diuretiká, centrálne pôsobiace lieky) s dostatočnou presnosťou.

Skutočnosť, že problém je nelineárny, je nepochybná. Samozrejme, je možné sa pokúsiť vyriešiť problém pomocou modulu STATISTICA Nelineárny odhad, konkrétne pomocou iteračných procedúr, ktoré tento modul ponúka na „hľadanie“ typu funkcie. Je tu však množstvo problémov, ktoré výrazne predlžujú postup pri hľadaní riešenia. Najdôležitejšou z nich je formulácia hypotézy o explicitnej forme skúmanej závislosti, ktorá nie je vôbec zrejmá.

Bez ďalšieho výskumu je ťažké povedať niečo o zjavnom type závislosti. Navyše treba spomenúť, že sme nebrali do úvahy ešte jeden faktor. Vo všeobecnosti môže vyriešenie takéhoto problému pomocou nelineárnych metód odhadu trvať veľmi dlho, prípadne nemusí k ničomu viesť. V takýchto kritických situáciách, keď sa o tom vie

Medzi premennými existuje vzťah;

Vzťah je určite nelineárny;

Je ťažké povedať niečo o zjavnej forme závislosti,

Algoritmy neurónovej siete pomáhajú. Uvažujme o spôsobe riešenia tohto problému v module STATISTICA Neurónové siete.

Bohužiaľ, neexistujú žiadne univerzálne pravidlá, ktoré by určovali, ktorá topológia neurónovej siete by sa mala dodržiavať pri riešení konkrétneho problému. Preto je potrebný rozumný postup na nájdenie správnej siete.

Modul Neurónové siete systému STATISTICA obsahuje procedúru, ktorá organizuje vyhľadávanie požadovanej konfigurácie siete. Tento postup pozostáva z vybudovania a testovania veľkého množstva sietí s rôznymi architektúrami a následne z výberu siete, ktorá je najvhodnejšia na riešenie daného problému. Tento nástroj sa nazýva Intelligent Problem Solver. Na spustenie modulu Neurónové siete je potrebné použiť rovnomenný príkaz v hlavnom menu systému STATISTICA - Štatistika. (Obrázok 7)

Obrázok 7. Spustenie modulu Neurónové siete

Nasledujúca téza je veľmi bežná: „neurónové siete sú univerzálnou štruktúrou, ktorá vám umožňuje implementovať akýkoľvek algoritmus. Skúsme, slepo veriac tomuto tvrdeniu, vybudovať neurónovú sieť, ktorá by navrhovanú závislosť okamžite „zachytila“ (teda bez predbežnej prieskumnej analýzy).

Jednou z najdôležitejších otázok, ktorú moderná veda ešte nevyriešila, je otázka štruktúry neurónovej siete, ktorá by bola schopná reprodukovať požadovanú viacrozmernú nelineárnu závislosť. V skutočnosti Kolmogorovova veta o úplnosti, ktorú dokázal už v roku 1957, uvádza, že neurónová sieť je schopná reprodukovať akúkoľvek (veľmi dôležitú - spojitú) funkciu. Recept na vytvorenie takejto siete však výskumníkovi neponúka. V roku 1988 viacerí autori zovšeobecnili Kolmogorovovu vetu a ukázali, že akákoľvek spojitá funkcia môže byť aproximovaná trojvrstvovou neurónovou sieťou s jednou skrytou vrstvou a algoritmom spätného šírenia s ľubovoľným stupňom presnosti. V našom prípade je teda pozitívnym aspektom poznanie, že sieť musí mať tri vrstvy, ale opäť neexistujú žiadne pravidlá, ktoré by stanovili vzťah medzi „akýmkoľvek stupňom presnosti“ a počtom neurónov v medziprodukte, tzv. nazývaná skrytá vrstva.

Keď zhrnieme všetky vyššie uvedené skutočnosti, poznamenávame, že neexistujú žiadne univerzálne pravidlá, ktoré by určovali, ktorá topológia neurónovej siete by sa mala dodržiavať pri riešení konkrétneho problému. Preto je potrebný rozumný postup na nájdenie správnej siete.

Modul Neurónové siete systému STATISTICA obsahuje unikátnu procedúru, ktorá organizuje vyhľadávanie požadovanej konfigurácie siete. Tento nástroj sa nazýva Intelligent Problem Solver. Využime tento nástroj a hľadajme neurónovú sieť, ktorá bude schopná vyriešiť náš problém.

Obrázok 8. Spúšťací panel modulu neurónových sietí

Na karte Rýchle v tomto dialógovom okne sa v časti Typ problému navrhuje vybrať triedu problémov, ktorým čelíme. Naším cieľom je vybudovať viacrozmerný vzťah alebo, inými slovami, viacrozmernú nelineárnu regresiu. To znamená, že v časti Typ problému by ste mali zadať Regresiu.

Po rozhodnutí o triede úloh je potrebné špecifikovať premenné na vykonanie analýzy. Na výber premenných použite tlačidlo Premenné. Po kliknutí na toto tlačidlo sa zobrazí dialógové okno Výber vstupných (nezávislých), výstupných (závislých) a selektorových premenných. V tomto dialógovom okne musíte zadať dva zoznamy premenných. Priebežnými výstupmi sú v našom prípade premenné Príjem do nemocnice ACEI/ARB, Príjem do nemocnice BAB, Príjem do nemocnice BKK, Príjem do nemocnice diuretiká a prijatie do nemocnice centrálne pôsobiacich liekov. Nepretržité vstupy sú v našom príklade od 1 do 61 počiatočných parametrov.

Obrázok 9. Výber premenných na analýzu

V časti Vybrať analýzu sú k dispozícii dve možnosti: Inteligentný nástroj na riešenie problémov a Návrhár vlastnej siete. Pre automatickú voľbu parametrov neurónovej siete je potrebná prvá možnosť, ktorá je predvolene nastavená. Ak chcete pokračovať v analýze, kliknite na tlačidlo OK.

V ďalšom kroku sa zobrazí dialógové okno nastavenia inteligentného riešenia problémov.

Sekcia Quick obsahuje skupinu možností, ktoré sú zodpovedné za čas vykonania vyhľadávacieho algoritmu neurónovej siete. Na tejto karte je potrebné určiť počet sietí, ktoré je potrebné otestovať (aby ste zistili, či sú vhodné na riešenie formulovaného problému), a tiež uviesť, koľko z týchto sietí bude zahrnutých do záverečnej správy.

V časti Testované siete uvádzame 100, Zachované siete - 10 (obrázok 10)

Záložka Types určuje, ktoré typy neurónových sietí budú použité v procese testovania. Na vyriešenie problému nelineárnej regresie je najvhodnejší viacvrstvový perceptrón, preto volíme siete označené na obrázku 11.

Obrázok 10. Nastavenie počtu sietí na testovanie

Obrázok 11. Výber sieťovej architektúry

Ďalej, na organizáciu procesu vyhľadávania a testovania je potrebné uviesť rozsah zmien v počte neurónov v každej vrstve neurónovej siete. Odporúčané hodnoty pre túto úlohu sú zobrazené na obrázku 12.

Obrázok 12. Označenie veľkostí tréningových, kontrolných a testovacích vzoriek

Teraz, po nastavení všetkých tréningových parametrov, na spustenie procedúry vyhľadávania siete, musíte kliknúť na OK.

Stav vyhľadávacieho algoritmu sa zobrazuje v dialógovom okne IPS Training In Progress.

Kým je spustený vyhľadávací algoritmus pre vhodnú neurónovú sieť, toto dialógové okno poskytuje informácie o čase vykonania algoritmu, ako aj o uvažovaných neurónových sieťach. Účelom vyhľadávacieho algoritmu je vymenovať množstvo konfigurácií neurónovej siete a vybrať tú najlepšiu z hľadiska minimálnej chyby na výstupe siete a maximálneho jej výkonu.

Páčil sa vám článok? Zdieľaj to
Hore