著者:
(1)マフディ・ゴルダニ
(2)ソラヤ・アサディ・ティルヴァン
Authors:
(1)マフディ・ゴルダニ
(2)ソラヤ・アサディ・ティルヴァン
左のテーブル
抽象
この研究は、異なるデータボリューム、研究距離編集、およびハウスドルフ距離メトリックを含む異なる機能選定手法の安定性を評価することに焦点を当てている。このようなリスクを軽減するために、フォーチュングローバル500にランクインした100社の高所得企業の株価の閉鎖、開放、高価格、低価格を含む包括的なデータセットを使用して、データシリーズの類似性を示す方法を識別することを目的としており、この研究は、フォーチュングローバル500にランクインした100社の株価の一般化を強化することに焦点を当てている。この研究は、フォーチュングローバル500にランクインされている企業の株価の安定性を比較するために、
導入
マシン学習モデルの効果的な評価とインタラクティブなグループのインタラクティブな識別の間で、このフィールドの詳細な機能と包括的なデータセットの特徴を組み合わせると、ほとんどのモデル関係を大幅に高めることができます。しかし、無関係な機能のオプションが実際にモデルのパフォーマンスを評価する代わりに効果的なコストを妨げる場合があります。実際には、より大きなサイズを持つインタラクティブな選択の機能スペースは、この課題を解決するためのより多くのパラメータを作成します。結果として、使用されるパラメータの数を増加することによって、需要モデルに過剰な機能を含む確率が強化されます。したが、機能のパフォーマンスを減らすために最もよく知られている機能の一般化は、
文献では、関数選択の主な目的は、関数の数が観察の数を超える場合に、特に関数の数を除去することである。この実践は、モデルがよく目に見えないデータに一般化することを保証し、過剰装備を軽減するのに役立ちます。したがって、関数選択は少数の観察に対処するための方法です。しかし、関数選択の方法のパフォーマンスは、観察の数が非常に小さいときに変化しますか?実際には、この記事は、この質問に答えを見つけることを目指しています。私たちが少数の観察に直面しているとき、関数選択の方法の結果はより信頼性がありますか? この問題は、年間データを提供する既存のデータセットのほとんどが、観察の数が少ない問題に直面しているため
特徴の選択は、データの採掘と機械学習のさまざまなアプリケーションで広く使用される特徴の評価である。特徴の選択に関する文献では、これらの特徴の選択の方法として直接似た方法を使用する研究はないが、この概念を探索したり、特徴の選択プロセスに類似性の測定を組み込むいくつかの研究があります。例えば、Zhu et al [3] 提案された特徴の選択に基づく機能クラスタリング(FSFC)アルゴリズムでは、類似性に基づく機能クラスタリングは、監督されていない特徴の選択の手段として使用されています。 Mitra [4] はこの概念を調査したり、高次元性を持つ大規模なデータセットのために設計された非監督された特徴の選択アルゴリズムを組み込んでいます。アルゴリズムは、特徴の類似
Vabalas [8]は、機械学習研究におけるサンプルサイズの推定の重要な役割を強調し、特に高次元データセットから自閉症スペクトル障害の選択を予測するのに役立ちます。 コネクタされたPery et al. [9]は、小規模なサンプルサイズが機械学習における偏見的なパフォーマンス推定につながる可能性を強調し、検証方法が十分にコントロールされていないかを調査しています。 シミュレーションは、特定の検証方法がサンプルサイズに関係なく偏見的な推定を生成する一方で、他のサンプルサイズに関係なく強力であることを示しています。 Kunry et al. [9]は、小規模なサンプルサイズが地形障害を予測するための機械学習
研究のレビューは2つの基本的な問題を明確にします。一つは、上記の研究の中で、特徴の選択の方法として直接に類似性の方法を使用する研究はありません。したがって、新しい提案として、この研究は、特徴の選択の方法として類似性の方法を直接使用し、その予測のパフォーマンスを特徴の選択の方法と比較します。第二に、この研究では、実際のデータセット(収益による100社の財務データ)で、各方法のサンプルサイズに対する敏感性を評価し、他の方法と比較します。
この論文は、CC BY-SA 4.0 by Deed (Attribution-Sharealike 4.0 International) ライセンスの下でアーカイブで利用できます。
この紙はARCHIV で利用可能CC BY-SA 4.0 by Deed (Attribution-Sharealike 4.0 International) ライセンス