Les auteurs :
1° Mahdi Goldani ;
2) Soraya Asadi Tirvan.
Authors:
1° Mahdi Goldani ;
2) Soraya Asadi Tirvan.
Table de gauche
Caractéristiques des méthodes de sélection
Mesurer les performances des méthodes
abstrait
Dans la modélisation des données fluctuantes potentielles, l’overfitting représente un risque important, en particulier lorsque le nombre de caractéristiques dépasse le nombre d’observations, un scénario commun dans les ensembles de données haute dimension. Pour atténuer ce risque, la sélection des caractéristiques est utilisée pour améliorer la généralisation des modèles en réduisant la dimensionnalité des données. Cette étude se concentre sur l’évaluation de la stabilité des techniques de sélection des caractéristiques par rapport aux volumes de données variables, en particulier en utilisant des méthodes de ressemblance de séries temporelles. En utilisant un ensemble de données complet qui comprend la fermeture, l’ouverture, les prix élevés et les prix bas des actions de 100 sociétés à revenu élevé énumér
Introduction
Dans les modèles d'apprentissage automatique utilisés pour l'évaluation des performances et l'efficacité de l'intégration de ces modèles, le fait d'avoir un ensemble de caractéristiques de mesure complet et complet peut améliorer considérablement l'exactitude du modèle. Cependant, il existe des cas où l'inclusion d'options de fonctionnalités irrégulières peut effectivement empêcher plutôt que d'aider la performance du modèle. En fait, l'espace de fonctionnalité avec une sélection d'intégration de dimensions plus grandes crée un plus grand nombre de paramètres qui doivent être estimés. En conséquence, en augmentant le nombre de paramètres utilisés, la probabilité d'emballage des données dans le modèle de demande est renforcée. Par conséquent,
Dans la littérature, l'objectif principal de la sélection des caractéristiques est d'éliminer les variables irrégulières, en particulier lorsque le nombre de caractéristiques dépasse le nombre d'observations. Cette pratique aide à atténuer l'excès, en veillant à ce que le modèle généralise bien à des données invisibles. Par conséquent, la sélection des caractéristiques est une méthode pour traiter avec un petit nombre d'observations. Mais la performance des méthodes de sélection des caractéristiques change-t-elle lorsque le nombre d'observations est très petit? En fait, cet article cherche à trouver la réponse à cette question; Lorsque nous sommes confrontés à un petit nombre d'observations, les résultats des méthodes de sélection des caractéristiques peuvent être plus fiables? Ce problème
La sélection des caractéristiques est une technique largement utilisée dans diverses applications de minage de données et d'apprentissage automatique. Dans la littérature sur la sélection des caractéristiques, il n'y a pas d'étude qui utilise des méthodes de similitude directement entre les méthodes de sélection des caractéristiques mais il y a certaines recherches qui explorent ce concept ou incorporent des mesures de similitude dans les processus de sélection des caractéristiques. Par exemple, Zhu et al [3] Dans l'algorithme proposé de la sélection des caractéristiques basé sur la sélection des caractéristiques (FSFC), les clusters de caractéristiques basés sur la similitude sont utilisés comme un moyen de sélection des caractéristiques non surveillées. Mitra [4] propose un algorithme de sélection des caractéristiques
Kunalas [8] souligne le rôle crucial de l'estimation de la taille de l'échantillon dans les études d'apprentissage automatique, en particulier dans la prévision de la sélection du spectre de l'autisme à partir de ensembles de données de haute dimension. Il discute de la manière dont les petites tailles d'échantillons peuvent conduire à des estimations de performances d'instructions de protocole qui ont abordé ce problème. Il examine si ce biais de test peut être dû à des méthodes de validation qui ne contrôlent pas suffisamment l'excès. Les simulations montrent que certaines méthodes de validation produisent des estimations d'excès, tandis que d'autres restent robustes indépendamment de la taille de l'échantillon. Perry et al.
Un examen des études clarifie deux problèmes de base. Un, parmi les études mentionnées, il n'y a pas d'étude qui utilise directement les méthodes de similitude comme méthode de sélection des caractéristiques. Par conséquent, comme une nouvelle proposition, cette étude utilise directement les méthodes de similitude comme méthode de sélection des caractéristiques et compare leurs performances de prédiction avec les méthodes de sélection des caractéristiques. Deuxièmement, dans cette étude, un ensemble de données réelles (données financières des 100 plus grandes sociétés par revenu), pour évaluer la sensibilité de chaque méthode à la taille de l'échantillon et la comparer à une autre. Le reste du document est organisé comme suit: la méthodologie est discutée dans la section 2, la section 3 présente les résultats
Ce document est disponible sous la licence CC BY-SA 4.0 by Deed (Attribution-Sharealike 4.0 International).
Ce papier estDisponible dans les archivessous la licence CC BY-SA 4.0 by Deed (Attribution-Sharealike 4.0 International).