paint-brush
人工知能によって生成されたテキストを検出する方法@mcsee
9,323 測定値
9,323 測定値

人工知能によって生成されたテキストを検出する方法

Maximiliano Contieri6m2023/02/03
Read on Terminal Reader

長すぎる; 読むには

A Turing test on Turing tests TL;DR: A.I. を検出する新しいツール生成されたテキスト.ME: AI テキストを検出する方法を説明する generatedChatGPT: AI によって生成されたテキストの検出は困難な場合がありますが、使用できる方法がいくつかあります。
featured image - 人工知能によって生成されたテキストを検出する方法
Maximiliano Contieri HackerNoon profile picture

チューリング テストに対するチューリング テスト

TL;DR: AI が生成したテキストを検出する新しいツール。


テキストジェネレーターとテキスト検出器は、😾いたちごっこ🐁のようなものです。


🤖人工知能ツール、特に GPT モデルが人間の仕事に取って代わりつつあります。


👨‍💻下手なプログラマーもすぐに入れ替わります。


そこにはいくつかの人工知能盗作ツールがありました。


今、 open.aiの人気のChatGPTモデルが独自にリリースされました。


ブログ投稿の全文は次のとおりです。

https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text/


試してみよう:

1.私の元の説明を確認してください

( ChatGPTの説明を読まずに自分の経験から書きました)


生成された AI テキストを検出する方法。


人工知能は、事前トレーニング済みのモデルを使用してテキストを生成できます。


これらのモデルは、パブリック ドメインのテキストに基づいており、概念間の関係を予測することによって知識を作成できます。


人工知能によって生成された合成テキストは、ソースを引用せずに事実を提供します。改良が必要でない限り、説明があまり深くない場合があります。


生成されたテキストを検出する簡単な方法は、いくつかの既知のジェネレーターを比較し、目的のテキストを書くように依頼することです。


もう 1 つのヒントは、間違いを犯すのは人間だけなので、ツールがそのデータセットを理解するかどうかを確認するために、いくつかの文法の間違いを追加することです。


人工知能によって生成された多くのテキストを読むと、それらが同じ文法パターンを使用していることに気付くでしょう。


ジェネレーターに、他の視聴者をターゲットにしたり、アクティブ ボイスを使用したりするように指示できます。


次に、単語の距離、一般的な単語などを測定できます。


それを予測されたしきい値と比較した後、テキストが人間によって生成されたものではないという確信を確認できます。


私は上記のテキストを一人で書き、 HemingwayAppや Grammarly などのいくつかのライティング アシスタント ツールを使用した後、ここにある新しいツールに入れました。


結果: 分類子は、テキストが AI によって生成された可能性が低いと見なします。 😺


チューリングテストに合格しました。 😺🧠


スケールであること:

「AI によって生成される可能性は非常に低い」は、分類器のしきい値 <0.1 に相当します。私たちの課題セットから人間が書いたテキストの約 5% と AI によって生成されたテキストの 2% に、このラベルが付いています。


「AI によって生成される可能性は低い」は、0.1 から 0.45 の間の分類子のしきい値に対応します。チャレンジ セットの人間が書いたテキストの約 15% と AI によって生成されたテキストの約 10% に、このラベルが付いています。


「AI で書かれたかどうか不明」は、0.45 ~ 0.9 の分類子のしきい値に対応します。人間が書いたテキストの約 50% と、チャレンジ セットの AI によって生成されたテキストの 34% に、このラベルが付いています。


「おそらく AI によって生成された」は、0.9 から 0.98 の間の分類器のしきい値に対応します。人間が書いたテキストの約 21% と、チャレンジ セットの AI 生成テキストの 28% にこのラベルが付いています。


「AI によって生成された可能性が高い」は、0.98 を超える分類器のしきい値に対応します。人間が書いたテキストの約 9% と、チャレンジ セットの AI 生成テキストの 26% にこのラベルが付いています。

2.ChatGPTの説明を確認する

ME: 生成された AI テキストを検出する方法を説明する


ChatGPT: AI によって生成されたテキストの検出は困難な場合がありますが、使用できる方法がいくつかあります。


パターン認識: AI によって生成されたテキストは、多くの場合、文章の構造、言語の使用、単語の選択にパターンが見られ、人間が書いたテキストとは異なるパターンを示します。


統計分析: AI によって生成されたテキストは、人間が書いたテキストとは異なる文字や単語の頻度、n-gram 分布などの特定の統計的特徴について分析できます。


人間による評価: 場合によっては、人間の専門家がテキストをレビューし、そのテキストが人間によって書かれたものか、AI によって生成されたものかを経験と専門知識に基づいて判断できます。


AI モデルの使用: AI モデルは、人間が作成したテキストと AI が生成したテキストのラベル付きデータセットを使用して、AI が生成したテキストを識別するようにトレーニングできます。その後、このモデルを使用して、AI によって生成されたテキストを新しい目に見えないテキストで識別することができます。


AI テクノロジは進化し続けており、テキストを生成する新しい方法が開発されているため、これらの方法が常に確実であるとは限りません。


いい説明。ツールをもう一度使いましょう。


結果: 分類子は、テキストが AI によって生成された可能性があると見なします。


このモデルは、人工知能によって生成された > 0.9 の精度を持っています。


それは予想されていました。

3. ウィキペディアの説明を確認する

この記事を切り貼りしてみましょう。


「自然言語生成 (NLG) は、自然言語出力を生成するソフトウェア プロセスです。広く引用されている NLG 手法の調査では、NLG を「情報の基礎となる非言語表現から、英語または他の人間の言語で理解可能なテキストを生成できるコンピューター システムの構築に関係する、人工知能および計算言語学のサブフィールド」と説明しています。 .


NLG プロセスの出力がテキストであることは広く同意されていますが、NLG システムの入力が非言語的である必要があるかどうかについては、意見の相違があります。 NLG メソッドの一般的なアプリケーションには、天気や患者のレポートなど、さまざまなレポートの作成が含まれます。画像キャプション;そしてチャットボット。


自動化された NLG は、人間がアイデアを文章や音声に変換するときに使用するプロセスと比較できます。心理言語学者は、このプロセスを言語生成という用語で表現することを好みます。このプロセスは、数学的な用語で説明したり、心理学的研究用にコンピューターでモデル化したりすることもできます。


NLG システムは、逆コンパイラーやトランスパイラーなどの人工コンピューター言語のトランスレーターと比較することもできます。トランスパイラーも、中間表現から人間が読み取れるコードを生成します。


人間の言語は、プログラミング言語よりもはるかに複雑で、表現の多義性と多様性を許容する傾向があるため、NLG はより困難になります。」


結果: 分類子は、テキストが AI によって生成されたものである場合、不明確であると見なします。 📚


信頼度は 0.45 ~ 0.9 です。


ページの履歴を見ると、人間が何人かいますが、ボットはそれほど多くありません。


私の結論は、ChatGPT には部分的にテキストが入力されたため、オーバーフィッティングを測定しているということです。

4. 人間の編集で ChatGPT を確認する

ChatGPT によって生成されたテキストを取得し、エディター ツールを使用して自分で編集しました。


AI によって生成されたテキストの検出は困難な場合がありますが、いくつかの方法を使用できます。


AI モデルを使用してトレーニングを行い、人間が作成したテキストと AI が生成したテキストのラベル付きデータセットを使用して、AI が生成したテキストを識別することもできます。


AI によって生成されたテキストは、多くの場合、文の構造、言語の使用、および人間が書いたテキストと比較して特徴的な単語の選択にパターンを示すため、パターン認識を使用できます。


さらに、場合によっては人間の専門家がテキストをレビューし、経験と専門知識に基づいて人間によって書かれたかどうかを判断する人間による評価もあります。


また、統計分析と呼ばれるツールを使用して、AI によって生成されたテキストを、文字や単語の頻度、人間が書いたテキストとは異なる n-gram 分布などの特定の統計的特徴についてチェックすることもできます。


モデルを使用して、新しいテキストと目に見えないテキストで AI が生成したテキストを識別できます。


最後に、AI テクノロジは急速に進化しており、常に確実であるとは限らないテキストを生成する新しい方法があります。


結果: 分類子は、テキストが AI によって生成された可能性があると見なします。 👿


システムをだますことはできませんでした。

5.私の以前の記事をチェック

このツールを使用して、多くの記事をチェックしました。


ChatGPT: 25 年以上のシニア プログラマーの驚くべき教師


結果: 分類子は、テキストが AI によって生成された可能性は低いと見なします。 😃


5段階の難易度で解説:ChatGPT


結果: 分類子は、テキストが AI によって生成されたものである場合、不明確であると見なします。


正確です。私は ChatGPT と「話し」、いくつかのアイデアを得ました。 😳


GitHub Copilot があなたの仕事の脅威にならない理由


結果: 分類子は、テキストが AI によって生成された可能性は非常に低いと見なします。 😃


☝️自分の記事を試すことができます!

最終的な考え

これは、 Open.aiによるもう 1 つのすばらしいツールです。


公式ページには、精度、決定論、および評価に関する非常に興味深い詳細がいくつかあります。