ตารางด้านซ้าย
3. วิธีการ
ครั้งแรกเราเก็บรวบรวมข้อมูลจํานวนมากของชุดเวลาสาธารณะในTime Series Pileและจากนั้นใช้มันเพื่อเตรียมการฝึกอบรม atransformer modelเกี่ยวกับ themasked time series prediction taskเราพูดถึงแต่ละขั้นตอนเหล่านี้ในส่วนต่อไปนี้
3.1. The Time ซีรี่ส์ Pile
ไม่เหมือนกับการประมวลผลภาษาธรรมชาติและการมองเห็นคอมพิวเตอร์ซึ่งชุดข้อมูลขนาดใหญ่เช่น The Pile (Gao et al.,2020) และ ImageNet-1K (Russakovsky et al., 2015) สามารถใช้ได้ง่ายสําหรับการฝึกอบรมก่อนการประมวลผลชุดข้อมูลเวลาสาธารณะมีขนาดเล็กมากกระจายและเป็นส่วนใหญ่เป็นงานเฉพาะ (Ma et al., 2023; Zhou et al., 2023; Gruver et al., 2023) เพื่อสะสมความแตกต่างนี้เราจะรวบรวมชุดเวลาหลายชุดจาก 4 สารเก็บข้อมูลสาธารณะที่เฉพาะเจาะจงที่ใช้กันอย่างแพร่หลายทําให้เกิดจํานวนมากของชุดเวลาที่ครอบคลุมโดเมนต่างๆและลักษณะของชุดเวลาเช่นความยาว amplitudes และความละเอียดเวลา เราเรียกคอลเลกชันนี้เป็น Time Series Pile
Informer long-horizon forecasting datasets(Zhou et al., 2021) เป็นคอลเลกชันของ 9 ชุดข้อมูลที่ใช้กันอย่างแพร่หลายในการประเมินประสิทธิภาพการคาดการณ์ระยะยาว (Wu et al., 2023; Nie et al., 2023; Challu et al., 2023): 2 อะไหล่ชั่วโมงและนาทีของ อุณหภูมิเครื่องแปลงไฟฟ้า (ETT) (Zhou et al., 2021), อุณหภูมิไฟฟ้า (Trindade, 2015), การจราจร (California Department of Transportation, 2024), สภาพอากาศ (Max Planck Institute for Biogeochemistry, 2024), โรคคล้ายกับโรค (ILI) (Centers for Disease Control and Prevention, 2024) และอัตราแลกเปลี่ยน (Lai et al., 2018).
Monash time series forecasting archive(Godahewa et al., 2021) เป็นคอลเลกชันของ 58 ชุดข้อมูลการคาดการณ์ระยะสั้นที่มีให้เลือกโดยสาธารณะรวมถึงชุดเวลามากกว่า 100K ซึ่งครอบคลุมโดเมนต่างๆและความละเอียดเวลา
UCR/UEA classification archive(Dau et al., 2018) ประกอบด้วย 159 ชุดข้อมูลชุดเวลาที่ใช้กันอย่างแพร่หลายในการเปรียบเทียบอัลกอริทึมการจัดอันดับ (Ismail Fawaz et al., 2019) ชุดข้อมูลเหล่านี้เป็นส่วนหนึ่งของเจ็ดประเภทที่แตกต่างกัน (รูปภาพรูปภาพการอ่านเซ็นเซอร์การจับภาพการเคลื่อนไหวสเปกโตกราฟ ECG อุปกรณ์ไฟฟ้าและข้อมูลจําลอง) มีความแตกต่างอย่างมีนัยสําคัญในแง่ของจํานวนชั้นเรียนและขนาดของชุดการฝึกอบรม
TSB-UAD anomaly benchmark(Paparrizos et al., 2022b) เป็นคอลเลกชันล่าสุดของ 1980 univariate ซีรีส์เวลาที่มีการติดฉลากผิดปกติจาก 18 ชุดข้อมูลการตรวจจับผิดปกติที่นําเสนอในช่วงทศวรรษที่ผ่านมา คอลเลกชันนี้รวมทั้งซีรีส์เวลาสังเคราะห์และโลกจริงที่มาจากแหล่งที่หลากหลายเช่นร่างกายมนุษย์เรืออวกาศสิ่งแวดล้อมและเว็บบริการ
Minimizing data contamination using careful train-test splitting.เราแบ่งแต่ละชุดข้อมูลอย่างระมัดระวังเป็นชุดการฝึกอบรมการยืนยันและการทดสอบการแยกส่วนขึ้นอยู่กับชุดที่ระบุโดยผู้สร้างข้อมูล เมื่อชุดเหล่านี้ไม่สามารถใช้ได้เราให้ตัวอย่างแบบสุ่ม 60% ของข้อมูลสําหรับการฝึกอบรม 10% สําหรับการยืนยันและ 30% สําหรับการทดสอบ ชุดข้อมูลการคาดการณ์ระยะยาวและการตรวจจับความผิดปกติเป็นชุดระยะยาวซึ่งแบ่งออกแนวนอนตามที่แสดงในรูปที่ 2 ในทางกลับกันชุดข้อมูลการคาดการณ์ระยะสั้นและการจัดอันดับมักจะมีชุดระยะสั้นหลายชุด สําหรับชุดข้อมูลเหล่านี้ชุดเวลาที่สมบูรณ์คือการฝึกอบรมการยืนยันหรือการทดสอบ เราใช้เมล็ดสุ่มเดียวกันที่ตั้งไว้เป็น 13 ในระหว่างการทดลองของเราตั้งแต่การฝึกอบรมก่อนจนถึงการประเมินต่อไปเพื่อให้แน่ใจว่า MOMENT เท่านั้นสังเกตการฝึกอบรมของชุดข้อมูล
3.2 รูปแบบสถาปัตยกรรม
Our transformer encoder retains the modifications proposed by Raffel et al. (2020) to the original Transformer (Vaswani et al., 2017). Specifically, we remove the additive bias from the Layer Norm (Ba et al., 2016), and place it before the residual skip connections (He et al., 2016), and use the relation positional embedding scheme (Shaw et al., 2018). Below we summarize the intuition behind some of our key design decisions.
Handling varying time series characteristics.ซีรี่ส์เวลาแตกต่างกันไปในความยาวจํานวนช่องเสียบความกว้างและความละเอียดเวลา เรามุ่งเน้นความยาวตัวแปรโดยการ จํากัด input ของ MOMENT ไปยังซีรี่ส์เวลา univariate ของความยาวคงที่ T = 512 ตามการปฏิบัติทั่วไปเรา sub-sample ซีรี่ส์เวลาที่ยาวนานและ pad shorter กับ zeros ในทางซ้าย นอกจากนี้การแบ่งซีรี่ส์เวลาเป็นแพทช์ลดความยืดหยุ่นของหน่วยความจําและความซับซ้อนในการคํานวณของ MOMENT อย่างสี่เหลี่ยมและเพิ่มความยาวของซีรี่ส์เวลาที่สามารถใช้เป็น input อย่างสม่ําเสมอ เราใช้ซีรี่ส์เวลาหลายตัวโดยการทํางานอย่างอิสระในแต่ละช่องทางตามมิติแบทช์ เช่นเดียวกับการศึกษาล่าสุด (Zhou et al., 2023; Nie et al., 2023)
Intentionally simple encoder.การติดตามการออกแบบของเครื่องแปลงสัญญาณในโดเมนภาษาช่วยให้เราสามารถใช้ประโยชน์จากการใช้งานที่สามารถปรับขนาดได้และมีประสิทธิภาพ (เช่นการตรวจสอบ gradient, การฝึกอบรมความแม่นยําผสม)
Light-weight prediction head.เราใช้หัวการคาดการณ์น้ําหนักเบาแทน decoder ขนาดเดียวกันกับตัวเข้ารหัสเพื่อให้สามารถปรับเปลี่ยนสถาปัตยกรรมที่จําเป็นสําหรับการปรับความละเอียดเฉพาะงานของพารามิเตอร์ที่สามารถฝึกอบรมได้จํานวน จํากัด ในขณะที่รักษาส่วนใหญ่ของพารามิเตอร์และคุณสมบัติระดับสูงที่ได้รับการเรียนรู้โดยตัวเข้ารหัส intact
3.3. การฝึกอบรมล่วงหน้าโดยใช้ Masked Time Series แบบจําลอง
เรา pre-train MOMENT โดยใช้งานจําลองชุดเวลาที่ซ่อนตัว รูปที่ 3 แสดงภาพรวมของขั้นตอนการฝึกอบรมก่อนการฝึกอบรมของเรา ในระหว่างการฝึกอบรมเราจะซ่อนจํานวนเล็ก ๆ ของแพทช์อย่างสม่ําเสมอในแบบสุ่มโดยการแทนที่การแทรกแพทช์ของพวกเขาด้วยการแทรกแพทช์ที่สามารถเรียนรู้ [MASK] การแทรกแพทช์ชุดเวลาที่ซ่อนตัวแล้วจะถูกให้อาหารเข้าไปในตัวเข้ารหัสเครื่องแปลงเพื่อเรียนรู้การแสดงแพทช์ซึ่งจะใช้ในการสร้างใหม่ชุดเวลาเดิมโดยใช้หัวการสร้างใหม่น้ําหนักเบา วัตถุประสงค์ของการฝึกอบรมก่อนคือการลดความผิดพลาดในการสร้างใหม่ที่ซ่อนตัวคือความผิดพลาดเฉลี่ยสี่เหลี่ยมระหว่างความจริงพื้นฐานและการคาดการณ์โดยเฉลี่ยกว่าแพ
Pre-training Setup.เราทําการฝึกอบรมก่อนสามขนาดที่แตกต่างกันของ MOMENT ประมาณสอดคล้องกับขนาดของตัวเข้ารหัสใน T5-Small, Base และ Large โดยเฉพาะอย่างยิ่งรุ่นฐาน (Small, Large) ใช้ชั้น 12 (6, 24) Transform กับขนาดที่ซ่อนอยู่ D = 768 (512, 1024), 12
(8, 16) หัวใจความสนใจและเครือข่ายการให้อาหารขนาด 3072 (2048, 4096) ซึ่งมีผลให้ประมาณ 125 (40, 385) ล้านพารามิเตอร์ น้ําหนักทั้งหมดจะถูกเริ่มต้นอย่างสุ่มก่อนการฝึกอบรมก่อน รูปแบบทั้งหมดใช้ชุดเวลาการป้อนความยาว T = 512 การทําลายเป็น N = 64 แผ่นแยกความยาว P = 8 เราซ่อน 30% ของแพทช์อย่างสม่ําเสมอในระหว่างการฝึกอบรมก่อน
3.4. Fine-tuning บนงานด้านล่าง
MOMENT สามารถใช้ได้อย่างราบรื่นสําหรับงานวิเคราะห์ชุดเวลาหลายอย่าง ในงานนี้เราพิจารณา 5 งานวิเคราะห์ชุดเวลาที่ใช้งานได้เป็นตัวอย่างเช่น การคาดการณ์ระยะยาวและระยะสั้น การจําแนกการตรวจจับความผิดปกติและการคํานวณ สําหรับงานคาดการณ์ที่มีแนวนอน H เราแทนที่หัวการสร้างใหม่ด้วยหัวการคาดการณ์ซึ่งก่อนหน้านี้จะทําให้การแทรก Patch แบบ N-D-dimensional ทั้งหมดลงในเวกเตอร์ขนาด N × D จากนั้นโปรเจคเป็นชุดเวลาแบบ H-dimensional ผ่านชั้นการคาดการณ์เชิงเส้น สําหรับงานอื่น ๆ ทั้งหมดเราเก็บไว้หัวการสร้างใหม่ เราให้คําอธิบายรายละเอียดของแต่ละงานและการกําหนดค่าของ MOMENT ในแอป E
ผู้เขียน :
(1) Mononito Goswami, Auton Lab, Robotics Insititute, Carnegie Mellon University, Pittsburgh, สหรัฐอเมริกา (mgoswami@andrew.cmu.edu)
(2) Konrad Szafer, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, USA โดยมีส่วนร่วมเท่าเทียมกันคําสั่งตัดสินใจโดยใช้เครื่องกําเนิดไฟฟ้าแบบสุ่ม
(3) Arjun Choudhry, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, USA โดยมีส่วนร่วมเท่าเทียมกันคําสั่งตัดสินใจโดยใช้เครื่องกําเนิดไฟฟ้าแบบสุ่ม
(4) Yifu Cai, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, USA
(5) Shuo Li, University of Pennsylvania, Philadelphia, สหรัฐอเมริกา
(6) Artur Dubrawski, ห้องปฏิบัติการอัตโนมัติ, Robotics Institute, Carnegie Mellon University, Pittsburgh, USA
Authors:
(1) Mononito Goswami, Auton Lab, Robotics Insititute, Carnegie Mellon University, Pittsburgh, สหรัฐอเมริกา (mgoswami@andrew.cmu.edu)
(2) Konrad Szafer, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, USA โดยมีส่วนร่วมเท่าเทียมกันคําสั่งตัดสินใจโดยใช้เครื่องกําเนิดไฟฟ้าแบบสุ่ม
(3) Arjun Choudhry, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, USA โดยมีส่วนร่วมเท่าเทียมกันคําสั่งตัดสินใจโดยใช้เครื่องกําเนิดไฟฟ้าแบบสุ่ม
(4) Yifu Cai, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, USA
(5) Shuo Li, University of Pennsylvania, Philadelphia, สหรัฐอเมริกา
(6) Artur Dubrawski, ห้องปฏิบัติการอัตโนมัติ, Robotics Institute, Carnegie Mellon University, Pittsburgh, USA
กระดาษนี้สามารถใช้ได้ใน archiv ภายใต้ใบอนุญาต CC BY 4.0 DEED
กระดาษนี้เป็น
[2] เราพบว่าส่วนใหญ่ของชุดข้อมูลการจัดอันดับมีชุดเวลาที่สั้นกว่า 512 นอกจากนี้หน้าต่างมองกลับความยาว 512 พบว่าเพียงพอสําหรับการคาดการณ์ระยะไกลที่แม่นยํา (Nie et al., 2023).
[4] https://cloud.google.com/tpu/docs/ bfloat16