169 lecturas

Sólo puedes confiar en tus datos si sabes qué ignorar

por Volumize Tech6m2025/05/12
Read on Terminal Reader

Demasiado Largo; Para Leer

Este estudio evalúa la estabilidad de los métodos de selección de características, como la varianza, la distancia de edición y la distancia de Hausdorff, en pequeños conjuntos de datos de series temporales financieras.
featured image - Sólo puedes confiar en tus datos si sabes qué ignorar
Volumize Tech HackerNoon profile picture
0-item

Los autores:

1 Mahdi Goldani;

2) Soraya Asadi Tirvan.

Authors:

1 Mahdi Goldani;

2) Soraya Asadi Tirvan.

Mesa de la izquierda

Abstracto e Introducción

Metodología

Datos

Métodos similares

Tipos de métodos de selección

Medir el rendimiento de los métodos

Resultado

Discusión

Conclusión y referencias

Abstracción

Para mitigar este riesgo, la selección de características se emplea para mejorar la generalizabilidad del modelo mediante la reducción de la dimensionalidad de los datos. Este estudio se centra en evaluar la estabilidad de las técnicas de selección de características con respecto a los volúmenes de datos variables, particularmente utilizando métodos de semejanza de series de tiempo. Utilizando un conjunto de datos completo que incluye el cierre, apertura, alto y bajo precio de las acciones de 100 empresas de altos ingresos enumeradas en el Fortune Global 500, este estudio se centra en evaluar la estabilidad de las técnicas de selección de características con respecto a volúmenes de datos variables, el estudio de la distancia de edición y la metrología de la distancia de Hausdorff. El objetivo es identificar métodos que muestren una sensibilidad mínima a la cantidad de datos, pero garantizan robustez y fiabilidad en las predic

Introducción

En la evaluación del rendimiento de los modelos de aprendizaje de máquina y la eficiencia de la identificación de este conjunto de características de medida de campo extra, la mayoría de las características del conjunto de datos pueden mejorar significativamente la exactitud del modelo. Sin embargo, hay casos en los que la inclusión de características irrelevantes puede realmente obstaculizar el costo en lugar de ayudar al rendimiento del modelo. De hecho, el espacio de características con una selección de dimensiones más grandes crea un mayor número de parámetros que necesitan ser estimados. Como resultado, la literatura sobre la reducción de dimensiones se refiere a la transformación de las series de parámetros utilizados, la probabilidad de sobrecubrir el espacio de demanda en un espacio de baja dimensión. Por lo tanto, una de las técnicas más conocidas de generalización del rendimiento de la selección de características separadas se logra cuando


En la literatura, el objetivo primordial de la selección de características es eliminar variables irrelevantes, especialmente cuando el número de características supera el número de observaciones. Esta práctica ayuda a mitigar la overfitting, asegurando que el modelo se generaliza bien a datos invisibles. Por lo tanto, la selección de características es un método para tratar con un pequeño número de observaciones. Pero ¿el rendimiento de los métodos de selección de características cambia cuando el número de observaciones es muy pequeño? De hecho, este artículo busca encontrar la respuesta a esta pregunta; Cuando nos enfrentamos a un pequeño número de observaciones, cuáles son los resultados de los métodos de selección de características pueden ser más fiables? Este problema es importante porque la mayoría de los conjuntos de datos existentes que proporcionan datos anuales enfrentan el problema de un pequeño número de observaciones. Por lo tanto, encontrar una manera de reducir la dimensión de un


Los métodos de selección de características son una técnica ampliamente utilizada en diversas aplicaciones de extracción de datos y aprendizaje automático. En la literatura sobre selección de características, no hay estudio que utilice métodos de similitud directamente como métodos de selección de características, pero hay algunas investigaciones que exploran este concepto o incorporan medidas de similitud en procesos de selección de características. Por ejemplo, Zhu et al [3] En el algoritmo propuesto de Clustering de características basado en la selección de características (FSFC) se centra en medir la similitud entre los algoritmos para identificar y eliminar la redundancia, lo que resulta en un proceso de selección de características más eficiente y eficaz. En el campo de la predicción de la relevancia de la estructura de la medida, Mitra [4] propone un algoritmo de selección de características sin supervisión diseñado para grandes conjuntos de datos con alta dimensionalidad. El algoritmo se centra en medir


En términos de la evaluación de riesgos de este conjunto de datos de acuerdo con el protocolo, ha habido un montón de estudios que han abordado este problema. Vabalas [8] destaca el papel crucial de la estimación del tamaño de la muestra en los estudios de aprendizaje automático, particularmente en la predicción de la selección del espectro de autismo con los conjuntos de datos de alta dimensión. Se discute cómo los tamaños de la muestra pueden conducir a la estimación del rendimiento del rango pequeño en el aprendizaje automático y se investiga si este prejuicio se debe a los métodos de validación que no controlan adecuadamente la superposición. Las simulaciones muestran que ciertos métodos de validación producen estimaciones bias, mientras que otros siguen siendo robustos independientemente del tamaño de la muestra. Perry et al. Kunry et al.


Una revisión de los estudios aclara dos cuestiones básicas. Uno, entre los estudios mencionados, no hay estudio que utilice directamente los métodos de similitud como método de selección de características. Por lo tanto, como una nueva propuesta, este estudio utiliza directamente los métodos de similitud como método de selección de características y compara su rendimiento de predicción con los métodos de selección de características. En segundo lugar, en este estudio, un conjunto de datos reales (datos financieros de las 100 empresas más grandes por ingresos), para evaluar la sensibilidad de cada método al tamaño de la muestra y compararlo con otro. El resto del artículo está organizado de la siguiente manera: la metodología se discute en la Sección 2, la Sección 3 presenta los resultados del estudio, y la Sección 4 informa de una discusión de los hallazgos y conclusiones.


Este artículo está disponible en archivo bajo la licencia CC BY-SA 4.0 by Deed (Attribution-Sharealike 4.0 International).

Este documento esDisponible en Archivobajo la licencia CC BY-SA 4.0 by Deed (Attribution-Sharealike 4.0 International).


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks