Kirjoittajat :
1) Mahdi Goldani
2) Soraya Asadi Tirvan.
Authors:
1) Mahdi Goldani
2) Soraya Asadi Tirvan.
Pöytä vasemmalla
Mittaa menetelmien suorituskykyä
abstrakti
Potentiaalisesti ennakoivassa datamallinnuksessa overfitting aiheuttaa merkittävän riskin, varsinkin kun ominaisuuksien lukumäärä ylittää havaintojen määrän, joka on yleinen skenaario suurissa tietokokonaisuuksissa. Tämän riskin lieventämiseksi ominaisuuksien valintaa käytetään mallin yleistettävyyteen vähentämällä tietojen ulottuvuutta. Tässä tutkimuksessa keskitytään arvioimaan ominaisuuksien valintamenetelmien vakautta suhteessa erilaisiin tietomääriin, etenkin käyttämällä aika-sarjan samankaltaisuusmenetelmiä. Tavoitteena on tunnistaa menetelmät, jotka osoittavat vähäistä herkkyyttä tilan määrälle, mutta takaavat taloudellisten ennusteiden luotettavuuden ja luotettavuuden, mikä on ratkaisevan tärkeää taloud
Johdatus
Tässä kenttätunnistuksessa käytetyt suorituskyvyn arviointi- ja vuorovaikutteiset tunnistamismallit, joissa on yksi kokonaisvaltainen ja kokonaisvaltainen mittausominaisuudet, voivat merkittävästi parantaa mallien tarkkuutta. Kuitenkin on tapauksia, joissa merkityksettömien ominaisuuksien sisällyttäminen voi tosiasiallisesti estää mallin suorituskyvyn arvioinnin ja tehokkaan integroinnin välillä. Itse asiassa samankaltaisten ominaisuuksien integrointi- ja vähentämisominaisuuksien alaryhmä luo suuremman määrän parametreja, jotka on arvioitava. Tämän seurauksena mittaussuhteen pienentämisellä käytettävien parametrien lukumäärän kasvattaminen lisää todennäköisyyttä ylikuormituksesta kysyntämallissa. Siksi erill
Kirjallisuudessa ominaisuuksien valinnan ensisijaisena tavoitteena on poistaa merkityksettömiä muuttujia, varsinkin kun ominaisuuksien määrä ylittää havaintojen määrän. Tämä käytäntö auttaa lieventämään liiallisuutta, varmistaen, että malli yleistyy hyvin näkymättömiin tietoihin. Siksi ominaisuuksien valinta on menetelmä pienen määrän havaintojen käsittelemiseksi. Mutta onko ominaisuuksien valintamenetelmien suorituskyky muuttunut, kun havaintojen määrä on hyvin pieni? Itse asiassa tämä artikkeli pyrkii löytämään vastauksen tähän kysymykseen; Kun kohtaamme pienen määrän havaintoja, mitkä ominaisuuksien valintamenetelmien tulokset voivat olla luotettavampia? Tämä ongelma on tärkeä, koska useimmat olemassa olevat tietokokonaisuudet, jotka tarjoavat vu
Ominaisuuksien tunnistaminen uudelleenarvioinnista on laajalti käytetty tekniikka erilaisissa tietojen louhinta- ja koneoppimisen sovelluksissa. Ominaisuuksien valintaa koskevassa kirjallisuudessa ei ole tutkimusta, jossa samankaltaisuusmenetelmiä käytetään suoraan ominaisuuksien valintamenetelmien välillä, mutta on joitakin tutkimuksia, jotka tutkivat tätä käsitettä tai sisällyttävät samankaltaisuuden toimenpiteitä ominaisuuksien valintaprosesseihin. Esimerkiksi Zhu et al [3] Ehdotetussa ominaisuuksien valintaperusteisessa ominaisuuksien klustereissa (FSFC) algoritmissa on keskitytty tunnistamaan ominaisuuksien samankaltaisuus ja poistamaan redundancy, mikä johtaa tehokkaampaan ja tehokkaampaan ominaisuuksien valintaproses
Kunalas [8] korostaa näytteen koon arvioinnin keskeistä roolia koneoppimisen tutkimuksissa, erityisesti ennustettaessa autismin spektrin häiriötä korkean ulottuvuuden tietokokonaisuuksista riippumatta. Se keskustelee siitä, miten pienet näytteiden koot voivat johtaa puolueettomiin suorituskykyarviointeihin koneen oppimisessa ja tutkii, onko tämä puolueettomuus geomorfisten häiriöiden ennustamiseksi johtuu validointimenetelmistä, jotka eivät riittävästi hallitse ylikuormitusta. Simulaatiot osoittavat, että tietyt validointimenetelmät tuottavat puolueettomia arvioita, kun taas toiset pysyvät vahvoina riippumatta näytteen koosta. Perry et al. Kunry et al. [9] korostavat näytteen koon merkitystä kon
Tutkimusten katsaus selventää kahta peruskysymystä. Ensinnäkin mainittujen tutkimusten joukossa ei ole tutkimusta, joka suoraan käyttää samankaltaisuusmenetelmiä ominaisuuksien valintamenetelmänä. Siksi uudeksi ehdotukseksi tässä tutkimuksessa käytetään suoraan samankaltaisuusmenetelmiä ominaisuuksien valintamenetelmänä ja verrataan niiden ennusteen suorituskykyä ominaisuuksien valintamenetelmiin. Toiseksi tässä tutkimuksessa on todellinen tietokokonaisuus (100:n suurimman yrityksen taloudelliset tiedot tulojen mukaan), joka arvioi kunkin menetelmän herkkyyttä otoksen kokoon ja vertailee sitä toiseen.
Tämä artikkeli on saatavilla arkivissä CC BY-SA 4.0 by Deed (Attribution-Sharealike 4.0 International) -lisenssillä.
Tämä artikkeli on saatavilla arkivissä CC BY-SA 4.0 by Deed (Attribution-Sharealike 4.0 International) -lisenssillä.