169 letture

Puoi fidarti dei tuoi dati solo se sai cosa ignorare

di Volumize Tech6m2025/05/12
Read on Terminal Reader

Troppo lungo; Leggere

Questo studio valuta la stabilità dei metodi di selezione delle caratteristiche - come la varianza, la distanza di modifica e la distanza di Hausdorff - su piccoli set di dati di serie temporale finanziaria.
featured image - Puoi fidarti dei tuoi dati solo se sai cosa ignorare
Volumize Tech HackerNoon profile picture
0-item

Gli autori :

• Mahdi Goldani;

2) Soraya Asadi Tirvan.

Authors:

• Mahdi Goldani;

2) Soraya Asadi Tirvan.

tavolo di sinistra

Abstract e Introduzione

Metodologia

Dati

Metodi simili

Metodi di selezione

Misurare le prestazioni dei metodi

Risultato

Discussione

Conclusioni e riferimenti

astratto

Per mitigare questo rischio, la selezione delle caratteristiche viene utilizzata per migliorare la generalizzabilità dei modelli riducendo la dimensionalità dei dati. Questo studio si concentra sulla valutazione della stabilità delle tecniche di selezione delle caratteristiche rispetto ai vari volumi di dati, in particolare utilizzando metodi di somiglianza di serie temporale. Utilizzando un insieme di dati completo che comprende la chiusura, l'apertura, l'alto e il basso prezzo delle azioni di 100 società ad alto reddito elencate nella Fortune Global 500, questa ricerca confronta diversi metodi di selezione delle caratteristiche tra cui soglie di variazione, modifica della distanza di studio e misurazione della distanza di Hausdorff. L'obiettivo è identificare metodi che mostrano una sensibilità minima alla quantità di dati, ma che garantiscono robustezza e affidabilità nelle previsioni

Introduzione

Nella valutazione delle prestazioni dei modelli di machine learning e nell'identificazione efficiente di questo set di caratteristiche di misura di campo più completo e completo, la maggior parte delle caratteristiche di misura può migliorare in modo significativo l'accuratezza del modello. Tuttavia, ci sono casi in cui l'inclusione di funzionalità irrilevanti può effettivamente ostacolare i costi piuttosto che aiutare le prestazioni del modello. Infatti, lo spazio di funzionalità con una selezione di dimensioni più grandi crea un numero maggiore di parametri che devono essere stimati. Di conseguenza, aumentando il numero di parametri utilizzati, la probabilità di overfitting nel modello di domanda è rafforzata. Pertanto, una delle tecniche più conosciute di generalizzazione delle prestazioni separate viene raggiunta quando viene utilizzato un sottoinsieme di caratteristiche di selezione di funzionalità simili


Nella letteratura, l'obiettivo primario della selezione delle caratteristiche è quello di eliminare le variabili irrilevanti, specialmente quando il numero di caratteristiche supera il numero di osservazioni. Questa pratica aiuta a mitigare l'overfitting, assicurando che il modello si generalizzi bene a dati invisibili. Pertanto, la selezione delle caratteristiche è un metodo per affrontare un piccolo numero di osservazioni. Ma la performance dei metodi di selezione delle caratteristiche cambia quando il numero di osservazioni è molto piccolo? In effetti, questo articolo cerca di trovare la risposta a questa domanda; Quando ci troviamo di fronte a un piccolo numero di osservazioni, quali i risultati dei metodi di selezione delle caratteristiche possono essere più affidabili? Questo problema è importante perché la maggior parte dei dataset esistenti che forniscono dati annuali affrontano il problema di un piccolo numero di osserv


Le selezioni di identificazione delle caratteristiche sono una tecnica ampiamente utilizzata nelle varie applicazioni di mining dei dati e di apprendimento automatico. Nella letteratura sulla selezione delle caratteristiche, non ci sono studi che utilizzano i metodi di similitudine direttamente come metodi di selezione delle caratteristiche, ma ci sono alcune ricerche che esplorano questo concetto o incorporano misure di similitudine nei processi di selezione delle caratteristiche. Ad esempio, Zhu et al [3] Nell'algoritmo proposto di selezione delle caratteristiche basato sul cluster (FSFC) si concentra sulla misurazione della similitudine tra le caratteristiche per identificare e rimuovere la ridondanza, il cluster delle caratteristiche basato sulla similitudine utilizza un processo di selezione delle caratteristiche più efficiente ed efficace. Nel campo della valutazione della rilevanza della struttura, Mitra [4] propone un algoritmo di selezione delle caratteristiche


In termini di valutazione del rischio di tale singola proposizione di funzionamento, ci sono stati un sacco di dati protocollo che hanno affrontato questo problema. Vabalas [8] sottolinea il ruolo cruciale della dimensione del campione stimato in studi di apprendimento automatico, in particolare nel prevedere la selezione del disordine dello spettro autistico con set di dati ad alta dimensione. Si discute di come le piccole dimensioni del campione possono portare a stime di prestazioni pregiudicate del protocollo e indaga se questo pregiudizio sui metodi di convalida non è dovuto adeguatamente controllare la sovrapposizione. Le simulazioni mostrano che alcuni metodi di convalida producono stime pregiudicate, mentre altri rimangono robusti indipendentemente dalla dimensione del campione. Perry et al. Kunry


Una revisione degli studi chiarisce due questioni di base. Uno, tra gli studi menzionati, non vi è uno studio che utilizzi direttamente i metodi di somiglianza come metodo di selezione delle caratteristiche. Pertanto, come nuova proposta, questo studio utilizza direttamente i metodi di somiglianza come metodo di selezione delle caratteristiche e confronta le loro prestazioni di previsione con i metodi di selezione delle caratteristiche. In secondo luogo, in questo studio, un set di dati reali (dati finanziari delle 100 società più grandi per reddito), per valutare la sensibilità di ciascun metodo alla dimensione del campione e confrontarlo con un altro. Il resto del documento è organizzato come segue: la metodologia è discussa nella sezione 2, la sezione 3 presenta i risultati dello studio e la sezione 4 riferisce una discussione dei risultati e delle conclusioni.


Questo documento è disponibile in archivio sotto la licenza CC BY-SA 4.0 by Deed (Attribution-Sharealike 4.0 International).

Questo documento è disponibile in archivio sotto la licenza CC BY-SA 4.0 by Deed (Attribution-Sharealike 4.0 International).


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks