Alternative za zamjenu STATISTICE. Neuronske mreže

STATISTICA Automated Neural Networks je jedini softverski proizvod za neuronske mreže u svijetu koji je u potpunosti preveden na ruski!

Metodologije neuronskih mreža postaju sve raširenije u raznim područjima od fundamentalnih istraživanja do praktičnih primjena analize podataka, poslovanja, industrije itd.

jedan je od najnaprednijih i najučinkovitijih proizvoda neuronskih mreža na tržištu. Nudi mnoge jedinstvene pogodnosti i bogate značajke. Na primjer, jedinstvene mogućnosti alata za automatsko pretraživanje neuronske mreže, , omogućuju korištenje sustava ne samo stručnjacima za neuronske mreže, već i početnicima u području računarstva neuronskih mreža.

Koje su prednosti korištenja ?

    Prethodno i naknadno procesiranje, uključujući odabir podataka, nominalno kodiranje, skaliranje, normalizaciju, uklanjanje podataka koji nedostaju s tumačenjem za klasifikaciju, regresiju i probleme vremenskih serija;

    Iznimna jednostavnost korištenja plus nenadmašna analitička snaga; na primjer, jedinstveni alat za automatsko pretraživanje neuronske mreže Automatizirana neuronska mreža (ANN) provest će korisnika kroz sve faze kreiranja različitih neuronskih mreža i odabrati najbolju (inače, ovaj se zadatak rješava dugim procesom "pokušaja i pogrešaka" i zahtijeva ozbiljno poznavanje teorije);

    Najsuvremeniji, optimizirani i moćni algoritmi za obuku mreže (uključujući metode konjugiranog gradijenta, Levenberg-Marquardtov algoritam, BFGS, Kohonenov algoritam); punu kontrolu nad svim parametrima koji utječu na kvalitetu mreže, kao što su funkcije aktivacije i pogreške, složenost mreže;

    Podrška za ansamble neuronskih mreža i arhitektura neuronskih mreža gotovo neograničene veličine;

    Bogate grafičke i statističke mogućnosti koje olakšavaju interaktivnu istraživačku analizu;

    Potpuna integracija sa sustavom STATISTICA; svi rezultati, grafikoni, izvješća itd. mogu se dalje modificirati korištenjem snažnih grafičkih i analitičkih alata STATISTICA(na primjer, za analizu predviđenih reziduala, izradu detaljnog izvješća itd.);

    Besprijekorna integracija s moćnim automatiziranim alatima STATISTICA; snimanje punopravnih makronaredbi za bilo koju analizu; stvaranje vlastitih analiza neuronskih mreža i aplikacija pomoću STATISTICA Visual Basic izazov STATISTICA Automatizirane neuronske mreže iz bilo koje aplikacije koja podržava COM tehnologiju (na primjer, automatska analiza neuronske mreže u proračunskoj tablici MS Excel ili kombiniranje nekoliko prilagođenih aplikacija napisanih u C, C++, C#, Javi itd.).

  • Izbor najpopularnijih mrežnih arhitektura, uključujući višeslojne perceptrone, radijalne osnovne funkcije i samoorganizirajuće mape značajki.
  • Alat dostupan Automatsko traženje mreže, koji vam omogućuje automatsku izgradnju različitih arhitektura neuronskih mreža i reguliranje njihove složenosti.
  • Očuvanje najboljih neuronskih mreža.

    Podržava različite vrste statističke analize i konstrukcije prediktivnih modela, uključujući regresiju, klasifikaciju, vremenske serije s kontinuiranom i kategoričkom ovisnom varijablom, analizu klastera za smanjenje dimenzionalnosti i vizualizaciju.

    Podržava učitavanje i analizu više modela.

  • Dodatna mogućnost generiranja izvornog koda u C, C++, C#, Javi, PMML (jezik za označavanje modela predviđanja), koji se može jednostavno integrirati u vanjsko okruženje za izradu vlastitih aplikacija.

Generator koda

Generator koda STATISTICA Automatizirane neuronske mreže može generirati programski kod izvornog sustava za modele neuronskih mreža u C, Javi i PMML (Predictive Model Markup Language). Generator koda je dodatna aplikacija u sustavu STATISTICA Automatizirane neuronske mreže, koji korisnicima omogućuje da na temelju analize neuronske mreže generiraju C ili Java datoteku s izvornim kodom modela i integriraju je u neovisne vanjske aplikacije.

    Generator koda zahtijeva STATISTICA Automatizirane neuronske mreže.

    Generira verziju izvornog koda neuronske mreže (kao datoteku u C, C++, C# ili Javi).

    Datoteka C ili Java koda tada se može ugraditi u vanjske programe.

STATISTICAAutomatizirano Neuronske mreže u računalstvu neuronske mreže

Korištenje neuronskih mreža uključuje mnogo više od same obrade podataka metodama neuronskih mreža.

STATISTICA automatizirane neuronske mreže (SANN) pruža niz funkcionalnosti za rad s vrlo složenim zadacima, uključujući ne samo najnovije Arhitekture neuronskih mreža I Učenje algoritama, ali i novi pristupi konstruiranju arhitektura neuronskih mreža s mogućnošću nabrajanja raznih funkcija aktivacije i pogreške, što olakšava interpretaciju rezultata. Osim toga, programeri softvera i korisnici koji eksperimentiraju s postavkama aplikacija cijenit će činjenicu da nakon provođenja navedenih eksperimenata u jednostavnom i intuitivnom sučelju STATISTICA automatizirane neuronske mreže (SANN) Analize neuronske mreže mogu se kombinirati u prilagođenoj aplikaciji. To se može postići pomoću knjižnice COM funkcija STATISTICA, koji u potpunosti odražava sve funkcionalnosti programa, ili pomoću koda u C/C++, koji generira program i pomaže u pokretanju potpuno obučene neuronske mreže.

Modul STATISTICA Automatizirane neuronske mreže potpuno integriran sa sustavom STATISTICA Dakle, dostupan je veliki izbor alata za uređivanje (pripremu) podataka za analizu (transformacije, uvjeti za odabir opažanja, alati za provjeru podataka itd.).

Kao i svi testovi STATISTICA, program se može "pričvrstiti" na udaljenu bazu podataka pomoću alata za obradu na licu mjesta ili povezati sa živim podacima tako da se modeli obučavaju ili pokreću (na primjer, za izračunavanje predviđenih vrijednosti ili klasifikacije) automatski svaki put kada se podaci promijene .

Skaliranje podataka i pretvorba nominalne vrijednosti

Prije nego što se podaci unesu u mrežu moraju se na određeni način pripremiti. Jednako je važno da se izlazni podaci mogu ispravno interpretirati. U STATISTICA automatizirane neuronske mreže (SANN) moguće je automatsko skaliranje ulaznih i izlaznih podataka; Varijable s nominalnim vrijednostima također se mogu automatski rekodirati (na primjer, Spol=(Muški,Ženski)), uključujući korištenje metode kodiranja 1-od-N. STATISTICA automatizirane neuronske mreže (SANN) sadrži i alate za rad s podacima koji nedostaju. Postoje alati za pripremu i interpretaciju podataka posebno dizajnirani za analizu vremenskih serija. Također je implementiran veliki izbor sličnih alata STATISTICA.

U problemima klasifikacije moguće je postaviti intervale pouzdanosti koji STATISTICA automatizirane neuronske mreže (SANN) zatim se koristi za dodjeljivanje opažanja jednoj ili drugoj klasi. U kombinaciji s posebnim implementiranim u STATISTICA automatizirane neuronske mreže (SANN) Softmax aktivacijska funkcija i funkcije unakrsne entropijske pogreške pružaju temeljni pristup teorije vjerojatnosti problemima klasifikacije.

Odabir modela neuronske mreže, ansambli neuronskih mreža

Raznolikost modela neuronskih mreža i brojni parametri koje je potrebno postaviti (veličine mreže, parametri algoritma učenja itd.) mogu zbuniti neke korisnike. Ali zato postoji alat za automatsko pretraživanje neuronske mreže, , koji može automatski tražiti odgovarajuću mrežnu arhitekturu bilo koje složenosti, vidi dolje. U sustavu STATISTICA automatizirane neuronske mreže (SANN) Implementirane su sve glavne vrste neuronskih mreža koje se koriste u rješavanju praktičnih problema, uključujući:

    višeslojni perceptroni (mreže s izravnim prijenosom signala);

    mreže temeljene na radijalnim baznim funkcijama;

    samoorganizirajuće Kohonenove karte.

Gore navedene arhitekture koriste se u regresiji, klasifikaciji, vremenskim serijama (s kontinuiranom ili kategoričkom ovisnom varijablom) i problemima klasteriranja.

Osim toga, u sustavu STATISTICA automatizirane neuronske mreže (SANN) provedeno Mrežni ansambli, formirana od slučajnih (ali značajnih) kombinacija gore navedenih mreža. Ovaj je pristup posebno koristan za podatke s velikim šumom i niske dimenzije.

U paketu STATISTICA automatizirane neuronske mreže (SANN) Dostupni su brojni alati koji pomažu korisniku pri odabiru odgovarajuće mrežne arhitekture. Statistički i grafički alati sustava uključuju histograme, matrice i grafikone grešaka za cjelokupnu populaciju i za pojedinačna opažanja, konačne podatke o točnoj/netočnoj klasifikaciji, a sve važne statistike, primjerice, objašnjeni udio varijance, izračunavaju se automatski.

Za vizualizaciju podataka u paketu STATISTICA automatizirane neuronske mreže (SANN) Dijagrami raspršenosti i 3D površine odgovora implementirani su kako bi pomogli korisniku da razumije "ponašanje" mreže.

Naravno, sve informacije dobivene iz navedenih izvora možete koristiti za daljnju analizu na druge načine. STATISTICA, kao i za naknadno uključivanje u izvješća ili za prilagodbu.

STATISTICA automatizirane neuronske mreže (SANN) automatski pamti najbolju mrežnu opciju od onih koje ste dobili tijekom eksperimentiranja sa zadatkom i možete je pogledati u bilo kojem trenutku. Korisnost mreže i njezina prediktivna sposobnost automatski se testiraju na posebnom testnom skupu opažanja, kao i procjenom veličine mreže, njezine učinkovitosti i cijene pogrešne klasifikacije. Implementirano u STATISTICA automatizirane neuronske mreže (SANN) Postupci automatske unakrsne provjere i reguliranja težine omogućuju vam da brzo odredite je li vaša mreža premalo ili prekomplicirana za određeni zadatak.

Za poboljšanje performansi u paketu STATISTICA Automatizirane neuronske mreže Prikazane su brojne opcije konfiguracije mreže. Stoga možete navesti mrežni sloj linearnog izlaza u problemima regresije ili aktivacijsku funkciju softmax u problemima probabilističke procjene i klasifikacije. Sustav također implementira funkcije unakrsne entropijske pogreške temeljene na modelima teorije informacija i brojnim posebnim aktivacijskim funkcijama, uključujući identične, eksponencijalne, hiperboličke, logističke (sigmoidne) i sinusne funkcije za skrivene i izlazne neurone.

Automatizirana neuronska mreža (automatsko pretraživanje i odabir različitih arhitektura neuronskih mreža)

Dio paketa STATISTICA automatizirane neuronske mreže (SANN) je automatski alat za pretraživanje neuronske mreže, Automatizirana neuronska mreža (ANN) - Automatizirano pretraživanje mreže (ANS), koji procjenjuje mnoge neuronske mreže različite arhitekture i složenosti i odabire mreže najbolje arhitekture za određeni zadatak.

Prilikom izrade neuronske mreže značajno se vrijeme troši na odabir odgovarajućih varijabli i optimizaciju mrežne arhitekture pomoću heurističkog pretraživanja. STATISTICA automatizirane neuronske mreže (SANN) preuzima ovaj posao i automatski provodi heurističku pretragu umjesto vas. Ovaj postupak uzima u obzir ulaznu dimenziju, vrstu mreže, mrežne dimenzije, aktivacijske funkcije, pa čak i potrebne izlazne funkcije pogreške.

To je iznimno učinkovit alat kada se koriste složene tehnike, omogućujući vam da automatski pronađete najbolju mrežnu arhitekturu. Umjesto da provodite sate sjedeći ispred svog računala, prepustite sustavu STATISTICA automatizirane neuronske mreže (SANN) obaviti ovaj posao za vas.

Uspjeh vaših eksperimenata u pronalaženju najbolje vrste i arhitekture mreže značajno ovisi o kvaliteti i brzini algoritama za učenje mreže. U sustavu STATISTICA automatizirane neuronske mreže (SANN) Implementirani su najbolji algoritmi za obuku do danas.

U sustavu STATISTICA automatizirane neuronske mreže (SANN) implementirana su dva brza algoritma drugog reda - metode konjugiranih gradijenata i BFGS algoritam. Potonji je iznimno moćan suvremeni algoritam za nelinearnu optimizaciju, a stručnjaci toplo preporučuju njegovu upotrebu. Postoji i pojednostavljena verzija BFGS algoritma koja zahtijeva manje memorije, koju sustav koristi kada su RAM mogućnosti računala prilično ograničene. Ovi algoritmi imaju tendenciju brže konvergirati i proizvesti točnije rješenje od algoritama prvog reda točnosti kao što je Gradient Descent.

Iterativni proces obuke mreže u sustavu STATISTICA automatizirane neuronske mreže (SANN) popraćen je automatskim prikazom trenutne pogreške treninga i pogreške izračunate neovisno o njoj na setu za testiranje, a prikazan je i graf ukupne pogreške. Trening možete prekinuti u bilo kojem trenutku jednostavnim pritiskom na gumb. Osim toga, moguće je postaviti uvjete zaustavljanja, pod kojima će se obuka prekinuti; takav uvjet može biti, na primjer, postizanje određene razine pogreške ili stabilan porast greške testa tijekom zadanog broja prolaza - “epoha” (što ukazuje na tzv. ponovno uvježbavanje mreže). Ako dođe do prekomjernog opremanja, korisnik ne bi trebao mariti: STATISTICA automatizirane neuronske mreže (SANN) automatski pamti instancu najbolje mreže dobivene tijekom procesa obuke, a ovoj opciji mreže uvijek se može pristupiti klikom na odgovarajući gumb. Nakon završetka mrežne obuke, možete provjeriti kvalitetu njenog rada na zasebnom testnom setu.

Nakon što je mreža osposobljena, potrebno je provjeriti kvalitetu njezina rada i odrediti njezine karakteristike. U tu svrhu u paketu STATISTICA automatizirane neuronske mreže (SANN) Postoji skup statistike na zaslonu i grafičkih alata.

U slučaju da je navedeno nekoliko modela (mreža i ansambala), tada (ako je moguće) STATISTICA automatizirane neuronske mreže (SANN) prikazat će usporedne rezultate (na primjer, iscrtati krivulje odziva nekoliko modela na jednom grafikonu ili prikazati prediktore nekoliko modela u jednoj tablici). Ovo je svojstvo vrlo korisno za usporedbu različitih modela obučenih na istom skupu podataka.

Sve statistike izračunavaju se zasebno za setove obuke, validacije i testiranja ili u bilo kojoj njihovoj kombinaciji, prema odluci korisnika.

Automatski se izračunavaju sljedeće sažete statistike: korijen srednje kvadratne pogreške mreže, tzv. matrica zabune za probleme klasifikacije (gdje se zbrajaju svi slučajevi točne i netočne klasifikacije) i korelacije za regresijske probleme. Kohonenova mreža ima prozor topološke karte u kojem možete vizualno promatrati aktivacije mrežnih elemenata.

Gotova rješenja (koristeći prilagođene aplikacije STATISTICA Automatizirane neuronske mreže)

Jednostavno i praktično sučelje sustava STATISTICA automatizirane neuronske mreže (SANN) omogućuje vam brzo stvaranje aplikacija za neuronske mreže za rješavanje vaših problema.

Može postojati situacija u kojoj je potrebno integrirati ta rješenja u postojeći sustav, na primjer, kako bi ih učinili dijelom šireg računalnog okruženja (to mogu biti procedure koje su razvijene zasebno i ugrađene u korporativni računalni sustav).

Uvježbane neuronske mreže mogu se primijeniti na nove skupove podataka (za predviđanje) na nekoliko načina: Možete spremiti uvježbane mreže i zatim ih primijeniti na novi skup podataka (za predviđanje, klasifikaciju ili predviđanje); Možete koristiti generator koda za automatsko generiranje programskog koda u C (C++, C#) ili Visual Basicu i zatim ga koristiti za predviđanje novih podataka u bilo kojem Visual Basic ili C++ (C#) programskom okruženju, tj. ugraditi potpuno obučenu neuronsku mrežu u svoj primjena. Zaključno, sve funkcionalnosti sustava STATISTICA, uključujući STATISTICA automatizirane neuronske mreže (SANN), mogu se koristiti kao COM objekti (Component Object Model) u drugim aplikacijama (na primjer, Java, MS Excel, C#, VB.NET itd.). Na primjer, možete implementirati automatiziranu analizu stvorenu korištenjem STATISTICA automatizirane neuronske mreže (SANN) u MS Excel tablice.

Popis algoritama učenja

    Gradijentni silazak

    Konjugirani gradijenti

    Kohonenov trening

    Metoda K-srednjih vrijednosti za mrežu radijalne osnovne funkcije

Ograničenja veličine mreže

Neuronska mreža može biti gotovo bilo koje veličine (odnosno, njezine dimenzije mogu biti mnogo puta veće nego što je stvarno potrebno i razumno); za mrežu višeslojnih perceptrona dopušten je jedan skriveni sloj neurona. Zapravo, za sve praktične zadatke program je ograničen samo hardverskim mogućnostima računala.

e-priručnik

Kao dio sustava STATISTICA automatizirane neuronske mreže (SANN) postoji dobro ilustrirani udžbenik koji nudi potpun i jasan uvod u neuronske mreže, kao i primjere. Sustav detaljne pomoći osjetljive na kontekst dostupan je iz bilo kojeg dijaloškog okvira.

Generator izvornog koda

Generator izvornog koda dodatni je proizvod koji korisnicima omogućuje jednostavno kreiranje vlastitih aplikacija temeljenih na sustavu STATISTICA automatizirane neuronske mreže (SANN). Ovaj dodatni proizvod stvara kod izvornog sustava modela neuronske mreže (kao datoteku u C, C++, C# ili Javi), koji se može zasebno kompajlirati i integrirati u vaš program za besplatnu distribuciju. Ovaj je proizvod dizajniran posebno za programere poslovnih sustava, kao i one korisnike koji trebaju transformirati visoko optimizirane procedure stvorene u STATISTICA automatizirane neuronske mreže (SANN), u vanjske aplikacije za rješavanje složenih analitičkih problema. (Treba napomenuti da za dobivanje dopuštenja korisnici moraju obavijestiti zaposlenike sitessia o distribuciji programa pomoću generiranog koda).

U STATISTICA-i problem kontinuiranog predviđanja predstavljen je kao problem regresije. U kontekstu ovog problema, neuronska mreža se smatra nelinearnom funkcijom, čija se složenost kontrolira “poluparametarski” - broj elemenata u mreži utječe na složenost rješenja, ali, naravno, analitičar ne može vidjeti eksplicitni oblik regresijske funkcije.

Potrebno je izgraditi neuronsku mrežu koja izračunava emisiju olova u atmosferu ovisno o broju i vrsti prometa u prolazu. Podaci se pohranjuju u datoteku Lead.xls.

Otvorite datoteku Svinets.xls u paketu Statistica. Pojavljuje se prozor Open File.

Riža. 4. 33. Prozor za uvoz.

Morate odabrati opciju "Uvezi odabrani list" i odabrati naziv podatkovnog lista:

Riža. 4. 34. Odabir Excel lista za uvoz u paket Statistica.

U sljedećem prozoru morate navesti stvarne parametre podataka, koji se u pravilu određuju i prikazuju automatski (osim zadnja tri potvrdna okvira).

Riža. 4. 35. Postavljanje područja uvoza.

Nakon toga, uvezeni podaci bit će prikazani u prozoru.

Riža. 4. 36. Uvezi rezultate.

Pokrenite paket analize pomoću neuronskih mreža. Da biste to učinili, odaberite "Neuronske mreže" iz izbornika "Analiza".

Riža. 4. 37. Odabir metode obrade podataka - “neuralna mreža”.

nakon čega će se pojaviti prozor paketa STATISTICA Neural Networks:

Riža. 4. 38. Početni prozor za analizu “neuralnih mreža”.

Idite na karticu "Brzo", gdje trebate postaviti vrstu zadatka - Regresija i alat - Dizajner mreže.

Riža. 4. 39. Pokretanje dizajnera neuronske mreže.

Dalje, pritiskom na tipku “OK” prelazite u mod za odabir izlaznih (ovisnih) i ulaznih (neovisnih) varijabli. Kao prvo biramo “Lead”, a kao posljednje broj automobila svih kategorija. Stupci "Ne" i "Ulica" ostaju neiskorišteni.

Riža. 4. 40. Odabir ulaznih i izlaznih podataka za neuronsku mrežu.

Klikom na “OK” vratit ćete se na karticu “Quick”. Zatim, ponovnim klikom na gumb "U redu", bit ćete prebačeni u prozor za formiranje neuronske mreže. Na kartici "Brzo" trebate odabrati vrstu mreže - višeslojni perceptron,

Riža. 4. 41. Odabir vrste neuronske mreže.

a na kartici "Elementi" možete odrediti potreban broj slojeva, broj neurona u svakom, kao i vrstu aktivacijske funkcije:

Riža. 4. 42. Postavljanje broja slojeva i tipova neurona.

Riža. 4. 43. Odabir metode za treniranje neuronske mreže.

Ovdje klikom na gumb "Uzorci" možete postaviti broj primjera za obuku, kontrolu i testiranje. Ako postavite broj testnih i kontrolnih primjera na nulu, tada će mreža biti uvježbana koristeći sve primjere:

Riža. 4. 44. Odredite podatke o obuci i testiranju.

Vraćajući se na glavni prozor treninga, možete kliknuti gumb "Korisnik" i otići na karticu "Interaktivno", zatražiti da se proces treninga odražava u obliku grafikona:

Riža. 4. 45. Određivanje vrste grafikona za demonstraciju procesa učenja.

Na kraju, klikom na tipku “Ok” započet ćete proces učenja čiji će se rezultat prikazati na grafikonu:

Riža. 4. 46. Uvježbavanje neuronske mreže.

Klikom na gumb "U redu" bit ćete prebačeni u prozor s rezultatima, gdje možete proučiti različite karakteristike stvorene mreže kretanjem kroz kartice prozora:

Riža. 4. 47. Rezultati modeliranja neuronske mreže.

Tako, na primjer, na kartici "Napredno" nalazi se gumb "Arhitektura mreže", klikom na koji možete vidjeti topologiju izgrađene mreže:

Riža. 4. 48. Pogled na izgrađenu neuronsku mrežu.

kao i gumb "Korisnička opažanja", gdje mreži možete dati nove početne podatke i primiti odgovor od već obučene mreže.

Koje su sličnosti i razlike između jezika neuroračunalstva i statistike u analizi podataka? Pogledajmo jednostavan primjer.

Pretpostavimo da imamo zapažanja i eksperimentalno izmjereno N parovi točaka koji predstavljaju funkcionalni odnos. Ako pokušate nacrtati najbolju ravnu liniju kroz te točke, što će na jeziku statistike značiti korištenje za opisivanje nepoznate ovisnosti linearni model

(gdje označava šum tijekom promatranja), zatim rješenje odgovarajućeg problema Linearna regresija svesti će se na pronalaženje procijenjenih vrijednosti parametara koji minimiziraju zbroj kvadratnih ostaci.

Ako su parametri pronađeni, vrijednost se može procijeniti g za bilo koju vrijednost x, odnosno provesti interpolacija I ekstrapolacija podaci.

Isti se problem može riješiti korištenjem jednoslojne mreže s jednim ulazom i jednim linearni izlazni neuron. Težina veze a i prag b može se dobiti minimiziranjem iste vrijednosti ostatka (koji će se u ovom slučaju zvati korijen srednje vrijednosti kvadrata pogreška) tijekom trening mreže, na primjer koristeći metodu povratnog širenja. Svojstvo neuronske mreže generalizacija tada će se koristiti za predviđanje izlazne vrijednosti iz ulazne vrijednosti.

Slika 25. Linearna regresija i jednoslojni perceptron koji ju implementira.

Kada se uspoređuju ova dva pristupa, ono što odmah upada u oči jest da se pri opisivanju njihovih metoda statistika poziva na formule I jednadžbe, i neuroračunalstvo do grafički opis neuralnih arhitektura.

1 Ako se sjetimo da lijeva hemisfera radi s formulama i jednadžbama, a desna hemisfera s grafičkim slikama, onda možemo shvatiti da u usporedbi sa statistikom, “ desna hemisfera” pristup neuronske mreže.

Još jedna značajna razlika je u tome što za statističke metode nije važno kako se odstupanje minimizira - u svakom slučaju model ostaje isti, dok za neuroračunalstvo glavnu ulogu ima nastavna metoda. Drugim riječima, za razliku od pristupa neuronske mreže, procjena parametara modela za statističke metode ne ovisi o metodi minimizacije. Istodobno, statističari će razmotriti promjene u vrsti reziduala, recimo po

Kako temeljna promjena modela.

Za razliku od neuromrežnog pristupa, u kojem se većina vremena troši na obuku mreža, u statističkom pristupu to se vrijeme troši na temeljitu analizu problema. Koristi stručnost statističara za odabir modela na temelju analize podataka i informacija specifičnih za područje. Korištenje neuronskih mreža - ovih univerzalnih aproksimatora - obično se provodi bez korištenja prethodnog znanja, iako je u nekim slučajevima vrlo korisno. Na primjer, za linearni model koji se razmatra, korištenje korijena srednje kvadratne pogreške dovodi do dobivanja optimalne procjene njegovih parametara kada vrijednost šuma ima normalnu distribuciju s istom varijancom za sve parove treninga. Istodobno, ako se zna da su te disperzije različite, tada se koristi ponderiran funkcije grešaka

može dati znatno bolje vrijednosti parametara.

Osim najjednostavnijeg razmatranog modela, možemo dati primjere drugih, u određenom smislu, ekvivalentnih modela statistike i paradigmi neuronskih mreža

Tablica 3. Slične tehnike

Hopfieldova mreža ima očitu vezu s grupiranjem podataka i faktorskom analizom.

1 Faktorska analiza koristi za studiranje strukture podaci. Njegova glavna premisa je pretpostavka o postojanju takvih znakova - čimbenici, koji se ne može izravno promatrati, ali se može procijeniti pomoću nekoliko vidljivih primarnih karakteristika. Na primjer, znakovi kao što su obujam proizvodnje I trošak dugotrajne imovine, može odrediti takav faktor kao opseg proizvodnje. Za razliku od neuronskih mreža, koje zahtijevaju obuku, faktorska analiza može raditi samo s određenim brojem opažanja. Iako bi u načelu broj takvih opažanja trebao biti samo jedan veći od broja varijabli, preporuča se koristiti najmanje tri puta veći broj vrijednosti. To se još uvijek smatra manjim od veličine uzorka za obuku za neuronsku mrežu. Stoga statističari ističu prednost faktorske analize u korištenju manje podataka i stoga bržem generiranju modela. Dodatno, to znači da implementacija metoda faktorske analize zahtijeva manje moćne računalne alate. Još jedna prednost faktorske analize je to što je to metoda bijele kutije, tj. potpuno otvoren i razumljiv - korisnik može lako razumjeti zašto model daje određeni rezultat. Veza između faktorske analize i Hopfieldovog modela može se vidjeti prisjećanjem minimalnih baznih vektora za skup opažanja (slike pamćenja - vidi Poglavlje 5). Upravo su ti vektori analozi faktora koji ujedinjuju različite komponente memorijskih vektora - primarnih karakteristika.

1 Logistička regresija je metoda binarne klasifikacije koja se široko koristi u donošenju financijskih odluka. Omogućuje procjenu vjerojatnosti realizacije (ili nerealizacije) nekog događaja ovisno o vrijednostima nekih nezavisnih varijabli - prediktora: x 1,...,x N. U modelu logističke regresije ova vjerojatnost ima analitički oblik: Pr( x) =(1+exp(-z)) -1, gdje je z = a 0 + a 1 x 1 +...+ a N x N. Njegov analog neuronske mreže očito je jednoslojni perceptron s nelinearnim izlaznim neuronom. U financijskim primjenama, logistička regresija ima prednost u odnosu na multivarijabilnu linearnu regresiju i diskriminantnu analizu iz više razloga. Konkretno, automatski osigurava da vjerojatnost pripada intervalu i nameće manje ograničenja na distribuciju prediktorskih vrijednosti. Potonje je vrlo važno, budući da distribucija vrijednosti financijskih pokazatelja u obliku omjera obično nije normalna i "jako je iskrivljena". Prednost neuronskih mreža je što im ova situacija ne predstavlja problem. Osim toga, neuronske mreže su neosjetljive na korelaciju prediktorskih vrijednosti, dok metode za procjenu parametara regresijskog modela u ovom slučaju često daju netočne vrijednosti.

Napomena: Neuronske mreže i statistika. Neuronske mreže i neizrazita logika. Neuronske mreže i ekspertni sustavi. Neuronske mreže i statistička fizika.

Životinje se dijele na:

  1. koji pripada caru,
  2. balzamiran,
  3. pripitomljen,
  4. naivčine,
  5. sirene,
  6. nevjerojatan,
  7. pojedinačni psi,
  8. uključeni u ovu klasifikaciju,
  9. trčeći uokolo kao ludi
  10. bezbroj,
  11. slikano najfinijim kistom od devine dlake,
  12. drugi,
  13. razbio vazu za cvijeće,
  14. izdaleka nalik na muhe.

H. L. Borges, "Analitički jezik Johna Wilkinsa"

Neuroračunalstvo ima brojne dodirne točke s drugim disciplinama i njihovim metodama. Konkretno, teorija neuronskih mreža koristi aparate statističke mehanike i teorije optimizacije. Područja primjene neuroračunalstva ponekad se snažno preklapaju ili gotovo podudaraju s područjima primjene matematičke statistike, teorije neizrazitih skupova i ekspertnih sustava. Poveznice i paralele neuroračunalstva iznimno su raznolike i ukazuju na njegovu univerzalnost. U ovom predavanju, koje se može smatrati dodatnim, jer zahtijeva nešto veću matematičku pripremu, govorit ćemo samo o najvažnijima od njih.

Neuronske mreže i statistika

Budući da se neuronske mreže sada uspješno koriste za analizu podataka, prikladno ih je usporediti sa starijim, dobro razvijenim statističkim metodama. U statističkoj literaturi ponekad možete naići na tvrdnju da su najčešće korišteni pristupi neuronske mreže ništa drugo doli neučinkoviti regresijski i diskriminantni modeli. To smo već prije napomenuli višeslojne neuronske mreže zapravo može riješiti probleme poput regresije i klasifikacije. Međutim, prvo, obrada podataka neuronskim mrežama mnogo je raznolikija - sjetite se, na primjer, aktivne klasifikacije Hopfieldovih mreža ili Kohonenovih mapa značajki, koje nemaju statističkih analoga. Drugo, mnoga istraživanja koja se tiču ​​korištenja neuronskih mreža u financijama i poslovanju otkrila su njihove prednosti u odnosu na prethodno razvijene statističke metode. Pogledajmo pobliže rezultate usporedbe metoda neuronskih mreža i matematičke statistike.

Jesu li neuronske mreže opisni jezik?

Kao što je navedeno, neki statističari tvrde da su pristupi neuronske mreže obradi podataka jednostavno ponovno otkriveni i preformulirani, ali su dobro poznate statističke metode analize. Drugim riječima, neuroračunalstvo jednostavno koristi novi jezik za opisivanje starog znanja. Kao primjer, evo citata Warrena Searlea:

Mnogi istraživači neuronskih mreža su inženjeri, fizičari, neuroznanstvenici, psiholozi ili informatičari koji malo znaju o statistici i nelinearnoj optimizaciji. Istraživači neuronskih mreža neprestano iznova otkrivaju metode koje su desetljećima i stoljećima poznate u matematičkoj i statističkoj literaturi, ali često ne mogu razumjeti kako te metode funkcioniraju.

Ovo gledište, na prvi pogled, može izgledati razumno. Formalizam neuronskih mreža doista može tvrditi da je univerzalni jezik. Nije slučajno da je već u pionirskom radu McCullocha i Pittsa pokazano da je opis neuronske mreže ekvivalentan opisu iskazne logike.

Zapravo sam otkrio da s tehnikom koju sam razvio u radu iz 1961. (...), mogu lako odgovoriti na sva pitanja koja su mi postavljali znanstvenici mozga (...) ili računalni znanstvenici. Kao fizičar, međutim, dobro sam znao da teorija koja objašnjava sve zapravo ne objašnjava ništa: to je u najboljem slučaju jezik. Eduardo Cayanello

Stoga ne čudi da statističari često otkrivaju da pojmovi koji su im poznati imaju svoje analogije u teoriji neuronskih mreža. Warren Searle je sastavio mali rječnik pojmova koji se koriste u ova dva područja.

Tablica 11.1. Rječnik sličnih pojmova
Neuronske mreže Statističke metode.
Znakovi varijable
ulazi nezavisne varijable
izlazi predviđene vrijednosti
ciljne vrijednosti zavisne varijable
greška rezidualni
obuka, prilagodba, samoorganizacija razred
funkcija greške, funkcija Ljapunova kriterij ocjenjivanja
slike treninga (parovi) zapažanja
parametri mreže: težine, pragovi. Procijenjeni parametri
neuroni visokog reda interakcija
funkcionalne veze transformacija
nadzirano učenje ili heteroasocijacija regresijska i diskriminativna analiza
učenje bez nadzora ili autoasocijacija kompresija podataka
natjecateljsko učenje, adaptivna vektorska kvantizacija analiza klastera
generalizacija interpolacija i ekstrapolacija
Koja je razlika između neuronskih mreža i statistike?

Koje su sličnosti i razlike između jezika neuroračunalstva i statistike u analizi podataka? Pogledajmo jednostavan primjer.

Pretpostavimo da smo izvršili opažanja i eksperimentalno izmjerili N parova točaka koje predstavljaju funkcionalnu ovisnost. Ako pokušamo povući najbolju ravnu liniju kroz te točke, što će na jeziku statistike značiti korištenje linearnog modela za opisivanje nepoznate ovisnosti, (gdje označava šum tijekom promatranja), tada će rješavanje odgovarajućeg problema linearne regresije biti sveo na pronalaženje procijenjenih vrijednosti parametara koji minimiziraju zbroj kvadratnih reziduala.

Ako su parametri pronađeni, tada je moguće procijeniti vrijednost y za bilo koju vrijednost x, odnosno interpolirati i ekstrapolirati podatke.

Isti problem može se riješiti korištenjem jednoslojna mreža s jednim ulaznim i jednim linearnim izlaznim neuronom. Težina veze a i prag b mogu se dobiti minimiziranjem iste količine ostatka (koja će se u ovom slučaju zvati korijen srednje kvadratne pogreške) tijekom mrežnog treninga, na primjer, korištenjem metode povratnog širenja. Svojstvo generalizacije neuronske mreže koristit će se za predviđanje izlazne vrijednosti iz ulazne vrijednosti.


Riža. 11.1.

Kada se uspoređuju ova dva pristupa, ono što odmah upada u oči je da se pri opisivanju njihovih metoda statistika poziva na formule i jednadžbe, a neuroračunalstvo se odnosi na grafički opis neuronskih arhitektura.

Ako se prisjetimo da lijeva hemisfera operira formulama i jednadžbama, a desna hemisfera grafičkim slikama, onda možemo shvatiti da se u usporedbi sa statistikom opet pojavljuje priroda “desne hemisfere” pristupa neuronske mreže.

Druga značajna razlika je u tome što za statističke metode nije važno kako se odstupanje minimizira - u svakom slučaju model ostaje isti, dok za neuroračunalstvo glavnu ulogu igra metoda obuke. Drugim riječima, za razliku od pristupa neuronske mreže, procjena parametara modela za statističke metode ne ovisi o metoda minimizacije. Istodobno, statističari će razmotriti promjene u vrsti reziduala, recimo po

Kao temeljna promjena modela.

Za razliku od neuromrežnog pristupa, u kojem se većina vremena troši na obuku mreža, u statističkom pristupu to se vrijeme troši na temeljitu analizu problema. Koristi stručnost statističara za odabir modela na temelju analize podataka i informacija specifičnih za područje. Korištenje neuronskih mreža - ovih univerzalnih aproksimatora - obično se provodi bez korištenja prethodnog znanja, iako je u nekim slučajevima vrlo korisno. Na primjer, za linearni model koji se razmatra, korištenje korijena srednje kvadratne pogreške dovodi do dobivanja optimalne procjene njegovih parametara kada vrijednost šuma ima normalnu distribuciju s istom varijancom za sve parove treninga. U isto vrijeme, ako je poznato da su te varijance različite, tada se koristi ponderirana funkcija pogreške

Može dati značajno bolje vrijednosti parametara.

Osim najjednostavnijeg razmatranog modela, možemo dati primjere drugih, u određenom smislu, ekvivalentnih modela statistike i paradigmi neuronskih mreža

Hopfieldova mreža ima očitu vezu s grupiranjem podataka i faktorskom analizom.

Faktorska analiza koristi se za proučavanje strukture podataka. Njegova je glavna premisa pretpostavka o postojanju takvih znakova - čimbenika koji se ne mogu izravno promatrati, ali se mogu procijeniti pomoću nekoliko vidljivih primarnih znakova. Na primjer, karakteristike kao što su obujam proizvodnje i trošak dugotrajne imovine mogu odrediti faktor kao što je opseg proizvodnje. Za razliku od neuronskih mreža, koje zahtijevaju obuku, faktorska analiza može raditi samo s određenim brojem opažanja. Iako bi u načelu broj takvih opažanja trebao biti samo jedan veći od broja varijabli, preporuča se koristiti najmanje tri puta veći broj vrijednosti. To se još uvijek smatra manjim od veličine uzorka za obuku za neuronsku mrežu. Stoga statističari ističu prednost faktorske analize u korištenju manje podataka i stoga bržem generiranju modela. Dodatno, to znači da implementacija metoda faktorske analize zahtijeva manje moćne računalne alate. Još jedna prednost faktorske analize je to što je to metoda bijele kutije, tj. potpuno otvoren i razumljiv - korisnik može lako razumjeti zašto model daje određeni rezultat. Veza između faktorske analize i Hopfieldovog modela može se vidjeti prisjećanjem vektora minimalna osnovica za skup opažanja (slike pamćenja – vidi predavanje 5). Upravo su ti vektori analozi faktora koji ujedinjuju različite komponente memorijskih vektora - primarnih karakteristika.

Tijekom određene povijesti praćenja pacijenata skupio se niz podataka koji su pohranjeni u tablici u sustavu STATISTICA. Odgovarajuća tablica podataka prikazana je na slici 6.

Slika 6. Fragment tablice izvornih podataka

Svrha istraživanja je izgraditi model neuronske mreže koji bi na temelju zadanog skupa početnih podataka (podaci pregleda pacijenta, rezultati pretraga, liječenje prije prijema), na temelju liječenja propisanog u bolnici, dao prognozu za liječenja (vrijednosti prijema u bolnicu I-APFARA, BAB, BKK, diuretici, lijekovi centralnog djelovanja) s dovoljnom točnošću.

Činjenica da je problem nelinearan nema sumnje. Naravno, problem se može pokušati riješiti korištenjem STATISTICA modula za nelinearnu procjenu, naime, korištenjem iterativnih postupaka koje nudi ovaj modul za "pipanje" vrste funkcije. No, tu postoji niz nevolja koje znatno produljuju proceduru traženja rješenja. Najvažnija od njih je formulacija hipoteze o eksplicitnom obliku ovisnosti koja se proučava, a koja nije nimalo očita.

Bez dodatnih istraživanja teško je išta reći o očitoj vrsti ovisnosti. Štoviše, treba napomenuti da nismo uzeli u obzir još jedan faktor. Općenito, rješavanje takvog problema korištenjem nelinearnih metoda procjene može trajati jako dugo ili ne mora dovesti do ničega. U takvim kritičnim situacijama, kada se zna da

Postoji odnos između varijabli;

Odnos je definitivno nelinearan;

Teško je išta reći o očitom obliku ovisnosti,

Algoritmi neuronske mreže pomažu. Razmotrimo način rješavanja ovog problema u modulu STATISTICA Neural Networks.

Nažalost, ne postoje univerzalna pravila koja pokazuju koju topologiju neuronske mreže treba slijediti za rješavanje određenog problema. Stoga je potreban razuman postupak za pronalaženje prave mreže.

Modul Neuralne mreže sustava STATISTICA uključuje proceduru koja organizira traženje željene konfiguracije mreže. Ovaj se postupak sastoji od izgradnje i testiranja velikog broja mreža s različitim arhitekturama i zatim odabira među njima mreže koja je najprikladnija za rješavanje zadanog problema. Ovaj se alat zove Inteligentni rješavač problema. Za pokretanje modula Neuralne mreže potrebno je koristiti istoimenu naredbu u glavnom izborniku sustava STATISTICA - Statistika. (Slika 7)

Slika 7. Pokretanje modula Neuralne mreže

Vrlo je česta sljedeća teza: "neuronske mreže su univerzalna struktura koja vam omogućuje implementaciju bilo kojeg algoritma." Pokušajmo, slijepo vjerujući ovoj tvrdnji, izgraditi neuronsku mrežu koja bi odmah “uhvatila” predloženu ovisnost (što znači, bez preliminarne eksplorativne analize).

Jedno od najvažnijih pitanja koje suvremena znanost još nije riješila jest pitanje strukture neuronske mreže koja bi bila sposobna reproducirati željenu višedimenzionalnu nelinearnu ovisnost. Doista, Kolmogorovljev teorem o potpunosti, koji je dokazao još 1957. godine, kaže da je neuronska mreža sposobna reproducirati bilo koju (vrlo važnu - kontinuiranu) funkciju. No, istraživaču ne nudi recept za stvaranje takve mreže. Godine 1988. brojni su autori generalizirali Kolmogorovljev teorem i pokazali da se svaka kontinuirana funkcija može aproksimirati troslojnom neuronskom mrežom s jednim skrivenim slojem i algoritmom povratnog širenja s bilo kojim stupnjem točnosti. Dakle, u našem slučaju, pozitivan aspekt je saznanje da mreža mora biti troslojna, ali opet ne postoje pravila koja uspostavljaju odnos između "bilo kojeg stupnja točnosti" i broja neurona u međusloju, tako da- nazvan skriveni sloj.

Rezimirajući sve gore navedeno, napominjemo da ne postoje univerzalna pravila koja pokazuju koju topologiju neuronske mreže treba slijediti za rješavanje određenog problema. Stoga je potreban razuman postupak za pronalaženje prave mreže.

Modul Neuralne mreže sustava STATISTICA uključuje jedinstvenu proceduru koja organizira traženje željene konfiguracije mreže. Ovaj se alat zove Inteligentni rješavač problema. Upotrijebimo ovaj alat i potražimo neuronsku mrežu koja će moći riješiti naš problem.

Slika 8. Lansirna ploča modula neuronskih mreža

U Quick kartici ovog dijaloškog okvira, u odjeljku Problem Type, predlaže se odabir klase problema s kojima se susrećemo. Naš cilj je izgraditi multivarijantni odnos ili, drugim riječima, multivarijantnu nelinearnu regresiju. To znači da u odjeljku Vrsta problema trebate navesti Regresiju.

Nakon što se odlučimo za klasu zadataka, potrebno je specificirati varijable za izvođenje Analize. Za odabir varijabli koristite gumb Varijable. Kada kliknete ovaj gumb, pojavljuje se dijaloški okvir Odabir ulaznih (neovisnih), izlaznih (ovisnih) i selektorskih varijabli. U ovom dijaloškom okviru trebate navesti dva popisa varijabli. Kontinuirani izlazi, u našem slučaju, su varijable Prijem u bolnicu ACEI/ARB, Prijem u bolnicu BAB, Prijem u bolnicu BKK, Prijem u bolnicu diuretici i prijem u bolnicu lijekovi centralnog djelovanja. Kontinuirani ulazi, u našem primjeru, su od 1 do 61 početni parametar.

Slika 9. Odabir varijabli za analizu

U odjeljku Odabir analize dostupne su dvije opcije: Inteligentni rješavač problema i Dizajner prilagođene mreže. Za automatski odabir parametara neuronske mreže potrebna je prva opcija, koja je postavljena prema zadanim postavkama. Za nastavak analize kliknite OK.

U sljedećem koraku pojavljuje se dijaloški okvir za postavljanje inteligentnog rješavača problema.

Quick odjeljak sadrži skupinu opcija koje su odgovorne za vrijeme izvršavanja algoritma pretraživanja neuronske mreže. Na ovoj kartici potrebno je navesti broj mreža koje je potrebno testirati (kako bi se utvrdilo jesu li prikladne za rješavanje formuliranog problema), te navesti koliko će tih mreža biti uključeno u konačno izvješće.

U odjeljku Testirane mreže označavamo 100, Zadržane mreže - 10 (Slika 10)

Kartica Vrste određuje koje će se vrste neuronskih mreža koristiti u procesu testiranja. Za rješavanje problema nelinearne regresije najprikladniji je višeslojni perceptron, pa biramo mreže označene na slici 11.

Slika 10. Postavljanje broja mreža za testiranje

Slika 11. Odabir mrežne arhitekture

Dalje, za organizaciju procesa pretraživanja i testiranja potrebno je naznačiti raspon promjena u broju neurona u svakom sloju neuronske mreže. Preporučene vrijednosti za ovaj zadatak prikazane su na slici 12.

Slika 12. Oznaka veličina uvježbanog, kontrolnog i ispitnog uzorka

Sada, nakon postavljanja svih parametara obuke, da biste započeli proceduru pretraživanja mreže, morate kliknuti OK.

Status algoritma pretraživanja prikazan je u dijaloškom okviru IPS Training In Progress.

Dok se izvodi algoritam traženja odgovarajuće neuronske mreže, ovaj dijaloški okvir pruža informacije o vremenu izvršenja algoritma, kao io razmatranim neuronskim mrežama. Svrha algoritma pretraživanja je nabrojati određeni broj konfiguracija neuronske mreže i odabrati najbolju u smislu minimalne pogreške na izlazu mreže i maksimalne njezine izvedbe.

Svidio vam se članak? Podijeli
Vrh