Το τραπέζι της Αριστεράς
Δήλωση επιπτώσεων και αναφορές
3 Μεθοδολογία
Αρχικά, συλλέγουμε ένα μεγάλο αριθμό δεδομένων δημόσιας σειράς χρόνου στοTime Series Pileκαι στη συνέχεια να το χρησιμοποιήσετε για την προ-προπόνηση atransformer modelΣΤΗΝmasked time series prediction taskΕξετάζουμε κάθε ένα από αυτά τα βήματα στις παρακάτω ενότητες.
Η σειρά The Time Series Pile
Σε αντίθεση με την επεξεργασία φυσικής γλώσσας και την ορατότητα υπολογιστή, όπου μεγάλης κλίμακας σύνολα δεδομένων όπως το The Pile (Gao et al., 2020) και το ImageNet-1K (Russakovsky et al., 2015) είναι εύκολα διαθέσιμα για προ-εκπαίδευση, τα σύνολα δεδομένων δημόσιων σειρών χρόνου είναι πολύ μικρότερα, διασκορπισμένα και σε μεγάλο βαθμό ειδικά για την εργασία (Ma et al., 2023; Zhou et al., 2023; Gruver et al., 2023). Για να γεφυρώσουμε αυτό το χάσμα, συλλέγουμε πολλαπλές σειρές χρόνου από 4 ειδικά για την εργασία, ευρέως χρησιμοποιούμενα δημόσια αποθέματα, με αποτέλεσμα ένα μεγάλο αριθμό σειρών χρόνου που καλύπτουν διάφορους τομείς
Informer long-horizon forecasting datasets(Zhou et al., 2021) είναι μια συλλογή από 9 σύνολα δεδομένων που χρησιμοποιούνται ευρέως για την αξιολόγηση της απόδοσης της μακροχρόνιας πρόβλεψης (Wu et al., 2023; Nie et al., 2023; Challu et al., 2023): 2 ωριαία και λεπτομερή υποσύνολα της θερμοκρασίας μετασχηματιστή ηλεκτρικής ενέργειας (ETT) (Zhou et al., 2021), ηλεκτρικής ενέργειας (Trindade, 2015), κυκλοφορίας (Τμήμα Μεταφορών της Καλιφόρνιας, 2024), καιρού (Ινστιτούτο Max Planck για τη Βιογεωχημεία, 2024), ασθένεια που μοιάζει με τη γρίπη (ILI) (Κέντρα Ελέγχου και Πρόληψης Νοσημάτων, 2024), και
Monash time series forecasting archive(Godahewa et al., 2021) είναι μια συλλογή από 58 δημόσια διαθέσιμα σύνολα δεδομένων πρόβλεψης βραχείας ορίζοντα με συνολικά πάνω από 100K χρονικές σειρές, που καλύπτουν μια ποικιλία τομέων και χρονικών ανάλυσης.
UCR/UEA classification archive(Dau et al., 2018) αποτελείται από 159 σύνολα δεδομένων χρονικής σειράς που χρησιμοποιούνται συχνά για την αξιολόγηση αλγορίθμων ταξινόμησης (Ismail Fawaz et al., 2019). Αυτά τα σύνολα δεδομένων που ανήκουν σε επτά διαφορετικές κατηγορίες (Εικόνα Προγράμματος, Αναγνώσεις Αισθητήρων, Συλλογή Κινήσεων, Φασματογράφοι, ΗΚΓ, Ηλεκτρικές Συσκευές και Προσομοιωμένα Δεδομένα), ποικίλλουν σημαντικά όσον αφορά τον αριθμό των τάξεων και το μέγεθος του συνόλου εκπαίδευσης.
TSB-UAD anomaly benchmark(Paparrizos et al., 2022b) είναι μια πρόσφατη συλλογή των 1980 μονομερών χρονικών σειρών με ετικέτες ανωμαλιών από 18 σύνολα δεδομένων ανίχνευσης ανωμαλιών που προτάθηκαν κατά την τελευταία δεκαετία.
Minimizing data contamination using careful train-test splitting.Χωρίζουμε προσεκτικά κάθε σύνολο δεδομένων σε διαχωρισμένες προπονήσεις, επικύρωση και δοκιμές διαχωρισμών, με βάση διαχωρισμούς που καθορίζονται από τους δημιουργούς δεδομένων. Όταν αυτές οι διαχωρισμοί δεν είναι διαθέσιμες, δίνουμε τυχαία δείγματα 60% των δεδομένων για εκπαίδευση, 10% για επικύρωση και 30% για δοκιμές. Μακροχρόνιες προβλέψεις και σύνολα δεδομένων ανίχνευσης ανωμαλιών είναι συνήθως μακροχρόνιες σειρές, οι οποίες χωρίζονται οριζόντια, όπως φαίνεται στο σχήμα 2. Αντιστρόφως, τα σύνολα δεδομένων πρόβλεψης και ταξινόμησης βραχίονα συχνά περιέχουν πολλαπλές σύντομες σειρές χρόνου. Για αυτά τα σύνολα δεδομένων, μια πλή
3.2 Μοντέλο αρχιτεκτονικής
Ο κωδικοποιητής μετασχηματιστή μας διατηρεί τις τροποποιήσεις που πρότεινε ο Raffel et al. (2020) στο αρχικό Transformer (Vaswani et al., 2017). Συγκεκριμένα, αφαιρούμε την προσθετική προκατάληψη από το Layer Norm (Ba et al., 2016), και το τοποθετούμε πριν από τις υπολειπόμενες συνδέσεις (He et al., 2016), και χρησιμοποιούμε το σχέδιο ενσωμάτωσης θέσης σχέσης (Shaw et al., 2018). Παρακάτω συνοψίζουμε τη διαίσθηση πίσω από μερικές από τις βασικές αποφάσεις σχεδιασμού μας.
Handling varying time series characteristics.Οι σειρές χρόνου ποικίλλουν σε μήκος, αριθμό καναλιών, πλάτος και χρονική ανάλυση. Αντιμετωπίζουμε το μεταβλητό μήκος περιορίζοντας την είσοδο του MOMENT σε μια ενιαία σειρά χρόνου σταθερής διάρκειας T = 512. Όπως είναι κοινή πρακτική, υποεξετάζουμε μεγαλύτερες σειρές χρόνου και τοποθετούμε μικρότερες σειρές χρόνου με μηδενικά στα αριστερά.[2] Επιπλέον, η διαίρεση σειρών χρόνου σε πακέτα μειώνει τετραγωνικά το αποτύπωμα μνήμης και την υπολογιστική πολυπλοκότητα του MOMENT και αυξάνει γραμμικά το μήκος της σειράς χρόνου που μπορεί να λάβει ως εισαγωγή. Επιπλέον, χρησιμοποιούμε πολλαπλές ποικίλες σειρές χρό
Intentionally simple encoder.Η προσεκτική παρακολούθηση του σχεδιασμού των μετασχηματιστών στον τομέα της γλώσσας μας επιτρέπει να αξιοποιήσουμε τις κλιμακούμενες και αποδοτικές εφαρμογές τους (π.χ. βαθμολογία ελέγχου, εκπαίδευση μικτής ακρίβειας).
Light-weight prediction head.Χρησιμοποιούμε ένα ελαφρύ κεφάλι πρόβλεψης αντί για έναν αποκωδικοποιητή του ίδιου μεγέθους με τον κωδικοποιητή, για να επιτρέψουμε τις απαραίτητες αρχιτεκτονικές τροποποιήσεις για την ειδική προσαρμογή ενός περιορισμένου αριθμού προσαρμόσιμων παραμέτρων, διατηρώντας ταυτόχρονα την πλειονότητα των παραμέτρων και τα χαρακτηριστικά υψηλού επιπέδου που μαθαίνει ο κωδικοποιητής.
Προ-προπόνηση με τη χρήση Masked Time Series Μοντελοποίηση
3 παρουσιάζει μια επισκόπηση της διαδικασίας προ-εκπαίδευσης μας. Κατά τη διάρκεια της εκπαίδευσης, πρώτα καλύπτουμε έναν μικρό αριθμό πακέτων ομοιόμορφα τυχαία αντικαθιστώντας τις ενσωματώσεις πακέτων τους με μια ενσωματωμένη μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα μάσκα
Pre-training Setup.Προ-εκπαιδεύουμε τρία διαφορετικά μεγέθη MOMENT, περίπου αντίστοιχα με τα μεγέθη των κωδικοποιητών στο T5-Small, Base και Large. Συγκεκριμένα, το μοντέλο Base (Small, Large) χρησιμοποιεί ένα 12 (6, 24) στρώμα Transform με κρυφές διαστάσεις μεγέθους D = 768 (512, 1024), 12
(8, 16) κεφάλια προσοχής και δίκτυα προώθησης τροφοδοσίας μεγέθους 3072 (2048, 4096), με αποτέλεσμα περίπου 125 (40, 385) εκατομμύρια παραμέτρους. Όλα τα βάρη ξεκινούν τυχαία πριν από την προ-εκπαίδευση. Όλα τα μοντέλα λαμβάνουν μια σειρά χρόνου εισόδου μήκους T = 512, χωρίζοντάς το σε N = 64 αποσύνδεση πακέτα μήκους P = 8. Μασάμε το 30% των πακέτων ομοιόμορφα κατά τη διάρκεια της προ-εκπαίδευσης.
3.4 Καθαρή προσαρμογή σε εργασίες downstream
Το MOMENT μπορεί να χρησιμοποιηθεί ομαλά για πολλαπλές εργασίες ανάλυσης χρονικής σειράς. Σε αυτό το έργο, εξετάζουμε 5 πρακτικές εργασίες ανάλυσης χρονικής σειράς ως παραδείγματα, δηλαδή: πρόβλεψη μακράς και κοντού ορίζοντα, ταξινόμηση, ανίχνευση ανωμαλιών και αποτίμηση. Για εργασίες πρόβλεψης με ορίζοντα H, αντικαθιστούμε την κεφαλή ανακατασκευής με κεφαλή πρόβλεψης, η οποία πρώτα ευθυγραμμίζει όλα τα N-D-διαστασιακά πακέτα ενσωματώσεων σε ένα διαστασιακό φορέα N × D, και στη συνέχεια το προβάλλει σε μια διαστασιακή σειρά χρόνου μέσω μιας γραμμικής στρώσης προβολής. Για όλες τις άλλες εργασίες, διατηρούμε
Οι συγγραφείς:
(1) Mononito Goswami, Auton Lab, Robotics Insititute, Πανεπιστήμιο Carnegie Mellon, Πίτσμπουργκ, ΗΠΑ (mgoswami@andrew.cmu.edu)
(2) Konrad Szafer, Αυτόνομο Εργαστήριο, Ινστιτούτο Ρομποτικής, Πανεπιστήμιο Carnegie Mellon, Πίτσμπουργκ, ΗΠΑ, με ίση συνεισφορά, με εντολή που αποφασίστηκε χρησιμοποιώντας μια τυχαία γεννήτρια.
(3) Arjun Choudhry, Αυτόνομο Εργαστήριο, Ινστιτούτο Ρομποτικής, Πανεπιστήμιο Carnegie Mellon, Πίτσμπουργκ, ΗΠΑ, με ίση συνεισφορά, με εντολή που αποφασίστηκε χρησιμοποιώντας μια τυχαία γεννήτρια.
(4) Yifu Cai, Αυτόνομο Εργαστήριο, Ινστιτούτο Ρομποτικής, Πανεπιστήμιο Carnegie Mellon, Πίτσμπουργκ, ΗΠΑ.
(5) Shuo Li, Πανεπιστήμιο της Πενσυλβάνια, Φιλαδέλφεια, ΗΠΑ.
(6) Artur Dubrawski, Αυτόνομο Εργαστήριο, Ινστιτούτο Ρομποτικής, Πανεπιστήμιο Carnegie Mellon, Πίτσμπουργκ, ΗΠΑ.
Authors:
(1) Mononito Goswami, Auton Lab, Robotics Insititute, Πανεπιστήμιο Carnegie Mellon, Πίτσμπουργκ, ΗΠΑ (mgoswami@andrew.cmu.edu)
(2) Konrad Szafer, Αυτόνομο Εργαστήριο, Ινστιτούτο Ρομποτικής, Πανεπιστήμιο Carnegie Mellon, Πίτσμπουργκ, ΗΠΑ, με ίση συνεισφορά, με εντολή που αποφασίστηκε χρησιμοποιώντας μια τυχαία γεννήτρια.
(3) Arjun Choudhry, Αυτόνομο Εργαστήριο, Ινστιτούτο Ρομποτικής, Πανεπιστήμιο Carnegie Mellon, Πίτσμπουργκ, ΗΠΑ, με ίση συνεισφορά, με εντολή που αποφασίστηκε χρησιμοποιώντας μια τυχαία γεννήτρια.
(4) Yifu Cai, Αυτόνομο Εργαστήριο, Ινστιτούτο Ρομποτικής, Πανεπιστήμιο Carnegie Mellon, Πίτσμπουργκ, ΗΠΑ.
(5) Shuo Li, Πανεπιστήμιο της Πενσυλβάνια, Φιλαδέλφεια, ΗΠΑ.
(6) Artur Dubrawski, Αυτόνομο Εργαστήριο, Ινστιτούτο Ρομποτικής, Πανεπιστήμιο Carnegie Mellon, Πίτσμπουργκ, ΗΠΑ.
Αυτό το έγγραφο είναι διαθέσιμο στο archiv υπό την άδεια CC BY 4.0 DEED.
Αυτό το έγγραφο είναι
[2] Βρήκαμε ότι η συντριπτική πλειοψηφία των συνόλων δεδομένων ταξινόμησης έχουν χρονικές σειρές μικρότερες από 512. Επιπλέον, ένα παράθυρο ανασκόπησης μήκους 512 διαπιστώθηκε ότι αρκεί για την ακριβή πρόβλεψη σε μακρύ ορίζοντα (Nie et al., 2023).
[4] https://cloud.google.com/tpu/docs/ bfloat16