Mesa de la izquierda
Declaración de reproductibilidad
Declaración de Impacto y Referencias
3 Metodología
Primero, recopilamos un gran número de datos de serie de tiempo público en elTime Series Piley luego utilizarlo para pre-entrenar atransformer modelEn elmasked time series prediction taskDiscutiremos cada uno de estos pasos en las siguientes secciones.
4.1 La serie de tiempo Pile
A diferencia del procesamiento del lenguaje natural y la visión por computadora, donde los conjuntos de datos a gran escala como The Pile (Gao et al., 2020) y ImageNet-1K (Russakovsky et al., 2015) están fácilmente disponibles para la pre-entrenamiento, los conjuntos de datos de series de tiempo públicos son mucho más pequeños, dispersos y en gran medida específicos para tareas (Ma et al., 2023; Zhou et al., 2023; Gruver et al., 2023). Para hacer frente a esta brecha, agregamos series de tiempo múltiples de 4 repositorios públicos específicos para tareas, lo que resulta en un gran número de series de tiempo que abarcan diversos dominios y características de series de tiempo como longitudes, amplitudes y resoluciones temporales.
Informer long-horizon forecasting datasets(Zhou et al., 2021) es una colección de 9 conjuntos de datos que se utilizan ampliamente para evaluar el desempeño de la predicción a largo plazo (Wu et al., 2023; Nie et al., 2023; Challu et al., 2023): 2 subconjuntos horarios y minutos de la temperatura del transformador eléctrico (ETT) (Zhou et al., 2021), la electricidad (Trindade, 2015), el tráfico (Departamento de Transporte de California, 2024), el tiempo (Instituto Max Planck para la bioquímica, 2024), la enfermedad similar a la gripe (ILI) (Centros para el Control y la Prevención de Enfermedades, 2024), y la tasa de intercambio (Lai et al., 2018).
Monash time series forecasting archive(Godahewa et al., 2021) es una colección de 58 conjuntos de datos de predicción de horizonte corto disponibles públicamente con un total de más de 100K series de tiempo, que abarcan una variedad de dominios y resoluciones temporales.
UCR/UEA classification archive(Dau et al., 2018) consta de 159 conjuntos de datos de series temporales que se utilizan frecuentemente para referenciar algoritmos de clasificación (Ismail Fawaz et al., 2019). Estos conjuntos de datos pertenecientes a siete categorías diferentes (Image Outline, Sensor Readings, Motion Capture, Spectrographs, ECG, Electric Devices, and Simulated Data), varían sustancialmente en cuanto al número de clases y el tamaño del conjunto de capacitación.
TSB-UAD anomaly benchmark(Paparrizos et al., 2022b) es una colección reciente de series temporales univariadas de 1980 con anomalías etiquetadas de 18 conjuntos de datos de detección de anomalías propuestos durante la última década.
Minimizing data contamination using careful train-test splitting.Dividimos cuidadosamente cada conjunto de datos en divisiones de formación, validación y prueba, basadas en divisiones especificadas por los creadores de datos. Cuando estas divisiones no están disponibles, mostramos aleatoriamente el 60% de los datos para la formación, el 10% para la validación y el 30% para la prueba. Los conjuntos de datos de predicción de horizonte largo y detección de anomalías son típicamente series de tiempo largas, que se dividen horizontalmente como se muestra en la Figura 2. Por el contrario, los conjuntos de datos de predicción y clasificación de horizonte corto a menudo contienen series de tiempo cortas múltiples. Para estos conjuntos de datos, una serie de tiempo completa es o entrenamiento, validación o prueba. Utilizamos la misma semilla aleatoria, establecida en 13, a lo largo de nuestros experimentos, desde el entrenamiento previo
3.2 Arquitectura Modelo
Our transformer encoder retains the modifications proposed by Raffel et al. (2020) to the original Transformer (Vaswani et al., 2017). Specifically, we remove the additive bias from the Layer Norm (Ba et al., 2016), and place it before the residual skip connections (He et al., 2016), and use the relation positional embedding scheme (Shaw et al., 2018). Below we summarize the intuition behind some of our key design decisions.
Handling varying time series characteristics.Las series de tiempo varían en longitud, número de canales, amplitudes y resoluciones temporales. Nos dirigimos a la longitud variable al restringir la entrada de MOMENT a una serie de tiempo univariada de longitud fija T = 512. Como es práctica común, sub-monitorizamos las series de tiempo más largas y colocamos las más cortas con cero a la izquierda.[2] Además, segmentar las series de tiempo en parches reduce cuadráticamente la huella de memoria y la complejidad computacional de MOMENT, y aumenta linealmente la longitud de la serie de tiempo que puede tomar como entrada. Como estudios recientes (Zhou et al., 2023; Nie et al., 2023), encontramos que modelar cada canal de forma independiente es una estrategia efectiva para modelar las series de tiempo multivariadas. Finalmente, re-
Intentionally simple encoder.Siguiendo de cerca el diseño de los transformadores en el dominio del lenguaje nos permite aprovechar sus implementaciones escalables y eficientes (por ejemplo, gradient checkpointing, entrenamiento de precisión mixta).
Light-weight prediction head.Utilizamos una cabeza de predicción ligera en lugar de un decodificador del mismo tamaño que el codificador, para permitir las modificaciones arquitectónicas necesarias para el ajuste específico de tareas de un número limitado de parámetros entrenables, manteniendo intacto la mayor parte de los parámetros y las características de alto nivel aprendidas por el codificador.
Pre-entrenamiento utilizando la serie de modelos de tiempo enmascarado
Pre-entrenamos MOMENT utilizando la tarea de modelado de serie de tiempo enmascarada. Figura 3 presenta una visión general de nuestro procedimiento de pre-entrenamiento. Durante el entrenamiento, primero enmascaramos un pequeño número de parches uniformemente al azar reemplazando sus incorporaciones de parches con una incorporación de máscara aprendible [MASK]. Los parches de serie de tiempo corrompidos se alimentan luego en el codificador del transformador para aprender representaciones de parches, que se utilizan para reconstruir la serie de tiempo original usando una cabeza de reconstrucción ligera. El objetivo de la pre-entrenamiento es minimizar el error de reconstrucción enmascarado, es decir, el error medio cuadrado entre la verdad subyacente y la predicción, promedio sobre los parches enmascarados.
Pre-training Setup.Pre-trainamos tres tamaños diferentes de MOMENT, aproximadamente correspondientes a los tamaños de los codificadores en T5-Small, Base y Large. Especificamente, el modelo Base (Small, Large) utiliza una capa 12 (6, 24) Transform con dimensiones ocultas de tamaño D = 768 (512, 1024), 12
(8, 16) cabezas de atención, y redes de alimentación adelante de tamaño 3072 (2048, 4096), resultando en aproximadamente 125 (40, 385) millones de parámetros. Todos los pesos se inician aleatoriamente antes de la pre-entrenamiento. Todos los modelos toman una serie de tiempo de entrada de longitud T = 512, rompiéndolo en N = 64 parches de disjunción de longitud P = 8. Mascamos el 30% de los parches uniformemente aleatoriamente durante la pre-entrenamiento.
Fine-tuning en las tareas descendentes
MOMENT se puede utilizar sin problemas para tareas de análisis de series de tiempo múltiples. En este trabajo, consideramos 5 tareas de análisis de series de tiempo prácticas como ejemplos, a saber: predicción de horizontes largos y cortos, clasificación, detección de anomalías e imputación. Para tareas de predicción con horizonte H, reemplazamos la cabeza de reconstrucción con una cabeza de predicción, que primero aplata todas las incorporaciones del parche N-D-dimensional en un vector dimensional N × D, y luego la proyecta en una serie de tiempo H-D por medio de una capa de proyección lineal. Para todas las otras tareas, conservamos la cabeza de reconstrucción.
Los autores:
(1) Mononito Goswami, Laboratorio Autonómico, Instituto de Robótica, Universidad Carnegie Mellon, Pittsburgh, Estados Unidos (mgoswami@andrew.cmu.edu)
(2) Konrad Szafer, Laboratorio Autónomo, Instituto de Robotica, Carnegie Mellon University, Pittsburgh, EE.UU., con una contribución igual, orden decidido utilizando un generador aleatorio;
(3) Arjun Choudhry, Laboratorio Autónomo, Instituto de Robotica, Universidad Carnegie Mellon, Pittsburgh, Estados Unidos, con una contribución igual, orden decidido utilizando un generador aleatorio;
(4) Yifu Cai, Laboratorio Autónomo, Instituto de Robotica, Universidad Carnegie Mellon, Pittsburgh, Estados Unidos;
(5) Shuo Li, Universidad de Pensilvania, Filadelfia, Estados Unidos;
(6) Artur Dubrawski, Laboratorio Autónomo, Instituto de Robotica, Universidad Carnegie Mellon, Pittsburgh, Estados Unidos.
Authors:
(1) Mononito Goswami, Laboratorio Autonómico, Instituto de Robótica, Universidad Carnegie Mellon, Pittsburgh, Estados Unidos (mgoswami@andrew.cmu.edu)
(2) Konrad Szafer, Laboratorio Autónomo, Instituto de Robotica, Carnegie Mellon University, Pittsburgh, EE.UU., con una contribución igual, orden decidido utilizando un generador aleatorio;
(3) Arjun Choudhry, Laboratorio Autónomo, Instituto de Robotica, Universidad Carnegie Mellon, Pittsburgh, Estados Unidos, con una contribución igual, orden decidido utilizando un generador aleatorio;
(4) Yifu Cai, Laboratorio Autónomo, Instituto de Robotica, Universidad Carnegie Mellon, Pittsburgh, Estados Unidos;
(5) Shuo Li, Universidad de Pensilvania, Filadelfia, Estados Unidos;
(6) Artur Dubrawski, Laboratorio Autónomo, Instituto de Robotica, Universidad Carnegie Mellon, Pittsburgh, Estados Unidos.
Este artículo está disponible en archivo bajo la licencia CC BY 4.0 DEED.
Este artículo está disponible en archivo bajo la licencia CC BY 4.0 DEED.
Disponible en Archivo[2] Se encontró que la gran mayoría de los conjuntos de datos de clasificación tienen series de tiempo más cortas que 512. Además, se encontró que una ventana de retroceso de longitud 512 era suficiente para una predicción precisa a largo plazo (Nie et al., 2023).
[4] https://cloud.google.com/tpu/docs/ bfloat16