この記事では、ソーシャル・ディスカバリーGのプロジェクトマネージャーであるAlexandr Karabatov氏
9ヶ月後、私たちの
このプロジェクトは重要な研究イニシアチブとなり、本質的に貴重な洞察を生み出した大規模な実験となりました。 この記事では、私たちが行った重要な決定とその結果を共有したいと思います。
制限制度の課題
Speed↓↓
ユーザーの視点から見ると、出会い系サイトの登録中に moderation プロセスはシンプルに見えるかもしれません - 短い自己説明といくつかの画像. しかし、スケールで、高トラフィックのプラットフォームの場合、これはかなりの処理列につながります. マーケティングキャンペーンによる変動を考慮して、これらの処理列は合理的に予測することができます.
次に、SLA(Service Level Agreement)とCR2(Conversion Rate to Registration)のバランスをとることに取り組む。 マニュアルマニュアルシステムでは、保存された1秒ごとに1人の従業員が加わる。
さらに、従業員の疲労は、募集を継続的で高価なサイクルにします。ほぼ無限のリソースでさえも、マニュアルの規制には時間が必要です:ケースを開く、決定を下し、回答を送信します。
Quality↓↓ :
ミスは避けられない。 高度なシステムでさえ、100%の正確さを達成しなければならない。 結果の変数は、主にタスクの明確性、いくつかの要因に依存します。 たとえば、「A」という文字から始まる名前を持つユーザーを禁止する場合、最小限のエラー率を得るでしょう。 しかし、「Alex」を許すべきですか? または「mr.Alex」を許すべきですか? ヘウリスティックなシステムは「はい」と言います。
もっと難しい課題は、ユーザーが他のユーザーを欺くことを意図したかどうかを判断することです。 マニュアルで観察されたもう一つの課題は、マネージャーが「詐欺師のスタイルのメール」、「私は確実にこの写真を前に見た」、「アジアの出会い系サイトでパリから連続して10件の登録ですか? 確実に偽物です!」
規制チェックリストの精密化は役立ちます ✅ しかし、エラーは依然として発生します. さらに、経験は単にクラウド経由でデジタルに転送することはできません; 規制は貴重な時間を消費します. 疲労はパフォーマンスの質の低下につながり、追加のスタッフを必要とし、コストを増やすことができます。
Conclusion:
マニュアル制限システムは、遅い意思決定、複雑なスタッフの取り組み、知識転送の困難に苦しんでおり、遅く、高価で、一貫して信頼性がありません。
テクノロジーの選択
We decided to add AI elements to our moderation system.選択したテクノロジーは、タスクと利用可能な予算に大きく依存します。テキストと画像の両方で作業する必要があったため、強力なビジョン能力を持つモデルが必要でした。
私たちは自動マネージメントに特化したサービスをレビューし、オープンソースのモデルを細かく調節することを検討しましたが、最終的にChatGPTに到着しました。 「あなたは出会い系サイトのマネージャーです」などのモデルを明確に提示することで、金融詐欺、背景の個人、およびその他の複雑な問題を80%以上の正確さで効率的に識別します。
スピード
LLMモデルを適度に使用するには、熟練したプロンプトが必要です. プロンプトエンジニアリングは大学で典型的に教えられているものではありません. 私たちのMLエンジニアは、現在、簡単で使用可能なソリューションが存在しないことを確認したので、私たちは独自の実験を開始しました。
私たちはすぐにプロンプト作成のアイデアをアウトソーシングすることを拒否しました。 ⚠️ 専門家の経験がなくてもプロンプトを絶え間なく改良することができる内部開発者を持つことが望ましいです。 私たちの仕事は、規制の結果に影響を与える頻繁に変化するインプットのため、常に調整を必要とします。ロープを発見する詐欺的なユーザーは直ちに変更を必要とします。 トレンドが変わるとき、プロンプトは更新されなければなりません。 モデルアップグレードも直ちに修正を必要とします。 たとえば、ハロウィンでは、彼らの頭にプラスチックナイフを持った幸せな顧客の写真を誤って拒否するリスクがあります。
promptについてのいくつかの基本的な重要な発見を強調しました。
promptについてのいくつかの基本的な重要な発見を強調しました。
promptについてのいくつかの基本的な重要な発見を強調しました。- 導入:モデルの目的と課題を簡潔に説明する。
- 行動:問題のあるコンテンツを構成するものについてモデルに正確かつ簡潔に指示し、そのようなコンテンツの検出または欠如時に返すための適切な対応を指定する必要がある。
- 例:それぞれのタイプの問題にいくつかの例を示し、我々が受け入れられるものとしないものを見せることが非常に重要である。
- **ノート:**コンテキストはモデルが正確な決定を下すために不可欠ですが、より長いプロンプトは幻覚の可能性を高めます。
データラベル
効果的な迅速な開発には必然的に正確なデータラベル化が必要です。ラベル化されたデータの品質はモデルのパフォーマンスに直接影響します。 多くのクラウドソーシングサービスがありますが、私たちは独自のラベル化チームを構築することにしました。
データラベル化パイプラインを設定する方法についてオンラインで多くのガイドを見つけることができますが、これらは私が最も重要だと考える主要なポイントです。
データラベル化パイプラインを設定する方法についてオンラインで多くのガイドを見つけることができますが、これらは私が最も重要だと考える主要なポイントです。- Clear Taxonomy: 詳細な定義と複数の例を含むすべての可能なラベルの包括的なリストを提供します。
- チーム: データの各項目は、偏見を減らし、合意を通じて信頼性を向上させるために、少なくとも3つの独立したラベルに記載されなければなりません。
- コミュニケーション:オンボードセッションを実行し、サンプルケースを一緒に検討し、必要に応じてラベルを「不明確」と表示することを許可します。
- 改善:各ラウンドのラベル化後、タクソノミーを改良し、品質上の懸念が生じた場合にチームを調整します。
完全なデータセットの最も重要な基準の1つは、期待されるすべてのコンテンツタイプでランダムに選択されたポジティブおよびネガティブなイベントの十分な数を含めることです。 たとえば、大人関連コンテンツに最適化されたプロンプトは、子供関連のコンテンツで使用する場合、正確な結果を提供できない場合があります。
システム建築
この段階では、信頼できるデータセットで満足のいく結果を生成する初期プロンプトを持っています. We have aligned on the acceptable thresholds for our AI moderator in terms of precision and recall, and are ready for system integration.覚えておくべき重要な点がいくつかあります。
覚えておくべき重要な点がいくつかあります。- このようなシステムは継続的な検証と改良を必要とし、新しい結果を定期的に注釈し、さまざまなコンテンツタイプの正確性を監視するためのプロセスを確立することが不可欠です。
- Human-in-the-loop methodology. A human should review corner cases where the AI is not 100% confident. This reduces immediate risks and, more importantly, enables continuous model improvement and prompt refinement. 人類は、AIが100%自信を持っていないコーナーケースを検討すべきです。
ビジネス効果
The initial integration significantly improved user registration efficiency, reducing processing time by a factor of 60 while maintaining moderation quality. Additionally, automation helped us standardize the objectivity of decisions, enabling us to quickly identify new issues and needs and improve the process. The system is already reducing costs for the company, and further optimization lies ahead.
この時点まで、我々は市場で最も人気があり、最も洗練されたソリューションを使用してきました。しかし、AIの急速な成長のために、我々は今、幅広いプロバイダーにアクセスできるようになりました。
複数のモデルを同時にサポートできる柔軟なアーキテクチャを設計し、異なるモデルの特定部品の正確な調節と必要に応じて迅速な交換を可能にしました。
ステージ 0 - 1 概要
当社の内部スタートアップは、わずか6人の常任理事の専属チームによって開発されました。プロジェクトのさまざまな段階で、私たちは同僚からの追加的な専門知識を活用しましたが、コアチームは小さく残りました。短期間で、私たちの仕事は完全な製品に成功して組み込まれ、チームを有意義に動機づけました。
当社の内部スタートアップは、わずか6人の常任理事の専属チームによって開発されました。システムはより速く、よりコスト効率的で、より一貫した品質となり、第1段階の目標が達成されたと結論づけられました。