169 čtení

Svým údajům můžete důvěřovat pouze tehdy, pokud víte, co ignorovat

podle Volumize Tech6m2025/05/12
Read on Terminal Reader

Příliš dlouho; Číst

Tato studie hodnotí stabilitu metod výběru funkcí – jako je variance, editní vzdálenost a Hausdorffova vzdálenost – na malých datových souborech finančních časových řad. Zjišťuje, že tyto techniky založené na podobnosti jsou robustní pro nízké velikosti vzorků a mohou pomoci snížit přetížení bez poškození předpovědní přesnosti.
featured image - Svým údajům můžete důvěřovat pouze tehdy, pokud víte, co ignorovat
Volumize Tech HackerNoon profile picture
0-item

Autoři :

1) Mahdi Goldani

Soraya Asadi Tirvanová.

Authors:

1) Mahdi Goldani

Soraya Asadi Tirvanová.

Stůl vlevo

Abstrakt a úvod

metodiky

Databáze

Metody podobnosti

Výběrové metody

Měření výkonu metod

Výsledek

diskuze

Závěry a reference

Abstraktní

Pro zmírnění tohoto rizika se výběr funkcí používá ke zvýšení generalizovatelnosti modelu snížením dimenzionálnosti dat. Tato studie se zaměřuje na vyhodnocení stability výběrových technik, včetně prahů variance výběru funkcí ve vztahu k různým datovým objemům, zejména s využitím metod podobnosti časových sérií. Cílem je identifikovat metody, které vykazují minimální citlivost na množství prostoru, ale zajišťují stabilitu a spolehlivost finančních dynamických předpovědí, což je pro finanční citlivost klíčové. Výsledky pro významné akcie naznačují, že hlavní testovací podmínky pro hospodářské aplikace používají mezi funkcemi, které jsou závislé na výběru funkcí, bez předpokládaných změn funkcí v čas

zavádí

V hodnocení výkonu strojového učení a efektivní identifikaci této skupiny mohou být používány funkce, které mají společný a komplexní měřicí soubor funkcí, které mohou výrazně zvýšit přesnost vztahů mezi modelem. Nicméně existují případy, kdy zahrnutí nepodstatných funkcí může skutečně bránit, spíše než pomáhat při hodnocení výkonu modelu. Ve skutečnosti prostor funkcí s většími rozměry integrace vytváří větší počet parametrů, které je třeba odhadnout. Výsledkem je, že zvýšením počtu použitých parametrů se zvyšuje pravděpodobnost zapojení dat z vysoce dimenzionálního prostoru do nízkodimenzionálního prostoru. Proto je nejlepší generalizace výkonu funkcí dosaženo, když se používá podskupina funkcí s podob


V literatuře je primárním cílem výběru funkcí odstranit irelevantní proměnné, zejména když počet funkcí přesahuje počet pozorování. Tato praxe pomáhá zmírnit přepracování, což zajišťuje, že model generalizuje dobře k neviditelným datům. Proto je výběr funkcí metodou pro zacházení s malým počtem pozorování. Ale mění se výkonnost metod výběru funkcí, když je počet pozorování velmi malý? Ve skutečnosti se tento článek snaží najít odpověď na tuto otázku; Když jsme konfrontováni s malým počtem pozorování, které výsledky metod výběru funkcí mohou být spolehlivější? Tento problém je důležitý, protože většina stávajících datových souborů, které poskytují roční data, čelí problému malého počtu pozorování. Proto nalezení způsob


Vyhodnocení funkcí je široce používanou technikou v různých aplikacích pro těžbu dat a strojové učení. V literatuře o výběru funkcí neexistuje žádná studie, která používá metody podobnosti přímo jako metody výběru funkcí, ale existují některé výzkumy, které tento koncept zkoumají nebo začleňují metody podobnosti do procesů výběru funkcí. Například Zhu et al [3] V navrhovaném algoritmu funkčního klastrování založeném na výběru funkcí (FSFC) se zaměřuje na měření podobnosti mezi funkcemi, které identifikují a odstraňují redundanci, což vede k efektivnějšímu a účinnějšímu procesu výběru funkcí založenému na podobnosti. Mitra [4] navrhuje, že v oblasti předpovídání relevantnosti nebo limitujícího softwar


Pokud jde o vyhodnocování rizikové velikosti takového jednotného návrhu integrovaného dat, došlo k hromadě dat protokolu, které tento problém řešily. Vabalas [8] zdůrazňuje klíčovou úlohu odhadu velikosti vzorku ve studiích strojního učení, zejména při předpovídání poruchy výběru autistického spektra z vysoce rozměrných datových souborů. Diskutuje o tom, jak malé velikosti vzorku mohou vést k odhadu rozměrů výkonu, a zkoumá, zda tato odhada ohledně testování geomorfních poruch může být způsobena tím, že metody validace nejsou dostatečně kontrolovány. Simulace ukazují, že některé metody validace produkují odhady rozměrů spektra autismu, zatímco jiné zůst


Přezkum studií objasňuje dvě základní otázky. Jedním z výše uvedených studií je, že neexistuje žádná studie, která by přímo používala metody podobnosti jako metodu výběru vlastností. Proto jako nový návrh tato studie přímo používá metody podobnosti jako metodu výběru vlastností a porovnává jejich předpovědní výkon s metodami výběru vlastností. Za druhé, v této studii je reálný datový soubor (finanční údaje 100 největších společností podle příjmů), který hodnotí citlivost každé metody na velikost vzorku a porovnává ji s jinou. Zbytek papíru je uspořádán takto: metodologie je diskutována v oddíle 2, oddíle 3 představuje výsledky studie a oddíle 4 informuje o diskusi o zjištěních a závěrech.


Tento dokument je k dispozici v archivu pod licencí CC BY-SA 4.0 by Deed (Attribution-Sharealike 4.0 International).

Tento papír jeDostupné v archivuPod licencí CC BY-SA 4.0 by Deed (Attribution-Sharealike 4.0 International).


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks