左のテーブル
Reproductibility Statement(再生可能性声明)
Impact Statement and References(影響声明と参照)
3.方法論
最初に、私たちは多くの公開時間シリーズのデータを集めます。Time Series Pileその後、Aをトレーニングするために使います。transformer modelON THEmasked time series prediction taskこれらのステップのそれぞれを次のセクションで説明します。
タイムシリーズ The Time Series Pile
自然言語処理やコンピュータビジョンとは異なり、The Pile(Gao et al.,2020)、およびImageNet-1K(Russakovsky et al., 2015)などの大規模なデータセットが事前トレーニングに容易に利用可能である場合、公共のタイムシリーズのデータセットは、より小さい、散らかで、主にタスク特有である(Ma et al., 2023; Zhou et al., 2023; Gruver et al., 2023)。このギャップを埋めるために、我々は、4タスク特有の広く使用される公共のリポジトリから複数のタイムシリーズを集め、このコレクションをタイムシリーズシリーズと呼びます。
Informer long-horizon forecasting datasets(Zhou et al., 2021)は、長期的な予測のパフォーマンスを評価するために広く使用される9つのデータセットのコレクション(Wu et al., 2023; Nie et al., 2023; Challu et al., 2023): 2時間および分の電気変換器温度(ETT)(Zhou et al., 2021)、電気(Trindade, 2015)、トラフィック(カリフォルニア交通省、2024)、天気(Max Planck Institute for Biogeochemistry, 2024)、インフルエンザのような病気(ILI)(Centers for Disease Control and Prevention, 2024)、および交換率(Lai et al., 2018)。
Monash time series forecasting archive(Godahewa et al., 2021)は、さまざまなドメインとタイム解像度をカバーする100K以上のタイムシリーズを含む58の公開的に利用可能な短期予測データセットのコレクションです。
UCR/UEA classification archive(Dau et al., 2018) は、しばしば基準分類アルゴリズムに使用される 159 つのタイムシリーズデータセットで構成されています (Ismail Fawaz et al., 2019). これらのデータセットは、7つの異なるカテゴリーに属します (Image Outline, Sensor Readings, Motion Capture, Spectrographs, ECG, Electric Devices, and Simulated Data) は、クラスの数とトレーニングセットのサイズで大きく異なります。
TSB-UAD anomaly benchmark(Paparrizos et al., 2022b)は、過去10年間で提案された18の異常検出データセットからラベル化された異常を含む1980年のユニバリアットタイムシリーズの最近のコレクションです。
Minimizing data contamination using careful train-test splitting.データ作成者によって指定された分割に基づいて、各データセットを慎重に分割して分割訓練、検証およびテスト分割に分割します。 これらの分割が利用可能でないときは、トレーニングのためのデータの60%、検証のための10%、テストのための30%をランダムにサンプル化します。 長期的な予測および異常検出のデータセットは、通常、図2に示すように長期的に分割され、逆に、短期的な予測および分類データセットは、しばしば複数の短期シリーズを含みます。 これらのデータセットでは、完全なタイムシリーズはトレーニング、検証、またはテストである。 私たちは、プレトレーニングから下流評価まで、実験を通じて、同じランダムシ
3.2 建築モデル
私たちのトランスフォーマーエンコーダーは、Raffel et al.(2020)がオリジナルトランスフォーマー(Vaswani et al., 2017)に提案した修正を保持しています。 具体的には、私たちは、Layer Norm(Ba et al., 2016)から添加偏見を除去し、残りのスパイク接続(He et al., 2016)の前に置き、関係位置組み込みスケジュール(Shaw et al., 2018)を使用します。
Handling varying time series characteristics.タイムシリーズは長さ、チャンネル数、幅、時間解像度によって異なります。私たちは、MOMENTの入力を固定長さT=512のユニバリアットタイムシリーズに制限することによって、変数長さに対処します。通常の慣例として、私たちは長いタイムシリーズをサブサンプルし、左側にゼロを持つより短いシリーズをパッドします。また、パッチに時間シリーズを分割することにより、MOMENTのメモリの足跡と計算的複雑さを四方的に削減し、入力として取れるタイムシリーズの長さを線形的に増加します。私たちは、バージョンサイズに沿って各チャンネルで独立して動作することにより、複数の変数タイムシリーズをサンプルします
Intentionally simple encoder.言語分野におけるトランスフォーマーの設計に密接に従うことで、スケーラブルで効率的な実装(例えば、グレディントチェックポイント、混合精度トレーニング)を活用することができます。
Light-weight prediction head.We use a lightweight prediction head instead of a decoder of the same size as the encoder, to enable the necessary architectural modifications for task-specific fine-tuning of a limited number of trainable parameters while keeping the bulk of parameters and the high-level features learned by the encoder intact. エンコーダーと同様のサイズのデコーダーの代わりに、軽量の予測ヘッドを使用します。
3.3 仮面時間シリーズモデリングを使用したプレトレーニング
私たちはマスクされたタイムシリーズモデリングタスクを使用してMOMENTをプレトレーニングします。 図3は私たちのプレトレーニング手順の概要を示しています。 トレーニング中に、私たちは最初に、マスクされたタイムシリーズパッチをマスクされたマスクインベーディング(MASK)と置き換えて、ランダムに均一にいくつかのパッチをマスクします。 破損したタイムシリーズパッチは、地下真実と予測の間の平均的な平方エラーであるマスクされた再構築エラーを最小限に抑えるために、軽量な再構築ヘッドを使用してオリジナルタイムシリーズを再構築するために使用されるパッチ表示を学ぶためにトレーニングします。
Pre-training Setup.We pre-train three different sizes of MOMENT, roughly corresponding to the sizes of encoders in T5-Small, Base, and Large. Specifically, the Base (Small, Large) model uses a 12 (6, 24) layer Transform with hidden dimensions of size D = 768 (512, 1024), 12
(8, 16) 注意ヘッド、およびサイズ3072(2048, 4096)のフィードフロアネットワークで、約125(40, 385)百万のパラメータを生成します。すべての重量は事前トレーニング前にランダムに初期化されます。すべてのモデルは長さT = 512の入力タイムシリーズをとり、N = 64の長さP = 8の分離パッチに分解します。
3.4 ダウンストリームタスクのFine-tuning
MOMENT は複数のタイムシリーズ分析タスクにシームレスに使用できます。この作品では、5つの実用的なタイムシリーズ分析タスクを例として考慮し、すなわち、長期および短期の予測、分類、異常検出および割り当てです。 ホリジョン H で予測するタスクでは、再構築ヘッドを予測ヘッドに置き換え、最初に N D 次元のパッチのすべての埋め込みを N × D 次元のベクトルにフラットし、その後、それらを H 次元のタイムシリーズにプロジェクトします。 他のすべてのタスクでは、我々は再構築ヘッドを保持します。
著者:
(1) Mononito Goswami, Auton Lab, Robotics Insititute, Carnegie Mellon University, Pittsburgh, USA (mgoswami@andrew.cmu.edu)
(2) Konrad Szafer, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, USA, with equal contribution, order decided using a random generator;
(3) Arjun Choudhry, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, USA, with equal contribution, order decided using a random generator;
(4) Yifu Cai, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, USA
(5) Shuo Li, University of Pennsylvania, Philadelphia, USA
(6) Artur Dubrawski, Auton Lab, Robotics Institute, Carnegie Mellon University, ピッツバーグ, USA
Authors:
(1) Mononito Goswami, Auton Lab, Robotics Insititute, Carnegie Mellon University, Pittsburgh, USA (mgoswami@andrew.cmu.edu)
(2) Konrad Szafer, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, USA, with equal contribution, order decided using a random generator;
(3) Arjun Choudhry, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, USA, with equal contribution, order decided using a random generator;
(4) Yifu Cai, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, USA
(5) Shuo Li, University of Pennsylvania, Philadelphia, USA
(6) Artur Dubrawski, Auton Lab, Robotics Institute, Carnegie Mellon University, ピッツバーグ, USA
この論文は CC BY 4.0 DEED ライセンスの下で archiv で利用できます。
この論文は CC BY 4.0 DEED ライセンスの下で archiv で利用できます。
ARCHIV で利用可能[2] 我々は、分類データセットの大半が512よりも短いタイムシリーズを持っていることを発見した。
[4] https://cloud.google.com/tpu/docs/ bfloat16