3,615 測定値
3,615 測定値

AIはより良いデータを必要とし、より大きなモデルだけでなく、

Dan Stein4m2025/05/05
Read on Terminal Reader

長すぎる; 読むには

LLMsは急速に変化し、不可能なことをするが、大きな課題は依然として残っている。SapienのCEOのRowan Stoneは、何が機能しているのか、何を修正する必要があるのかを共有しています。
featured image - AIはより良いデータを必要とし、より大きなモデルだけでなく、
Dan Stein HackerNoon profile picture

LLMsは急速に変化し、私たちのほとんどが予想していたよりも速くしてきました。私たちは彼らが数年前に不可能だと感じたことをしているのを見ています。しかし、すべてのハイプの背後には、特にこれらのモデルを訓練するデータの周りに、依然として大きな課題があります。サピエンスCEOのロワン・ストーン氏は、何がうまくいくのか、何がまだ修正される必要があるのか、そしてSapien氏がどのように問題を根本から取り組んでいるのかについて取り組みます。

サピエンス

大型言語モデルの進化はここ数年で顕著なものであり、どのように進歩を評価し、どのような分野が改善できるのか。

LLMの進歩が今日のAIの風景を形作ったことは間違いない。過去数年間の進歩は驚異的であり、自然言語処理能力を大幅に向上させたが、これらのモデルのトレーニングには膨大な量のデータが必要である。 それは、企業を助けるにもかかわらず、まだ仕事を必要とする領域です。 制限されたデータセットは障害です。 彼らは、サービスの効果的かつ効率的な提供のために学ぶ必要がある情報のモデルを奪うことができます。


偏見拡大の可能性は真の懸念であり、これはステレオタイプの繰り返しと一般化の欠如につながる可能性があります。


精度、スケーラビリティ、および専門知識 - これらは私たちの3つの柱です。私たちは、LLMトレーニングのために収集されたデータが高品質であることを保証します。私たちは、LLMが専門家の人間のフィードバックと精密に調整することができるシステムを形成しました。

あなたは、人間の専門家の介入がLLMの精度を向上させるのに役立ちると信じています。

私たちは、人間の専門家の介入は、特に機械の理解がしばしば短い分野で、LLMの精度を向上させるために重要であると信じています。


ソーシャルメディアのモニタリング、顧客サポート、製品レビューのために、人々はテキストの感情を注釈して、モデルがより良いトーンと感情を検出するのを助けることができます。


キーフレーズやセクションをタグ化することで、モデルが正確に概要する方法を学ぶことができます。AIトレーナーは、顧客サービスのトランスクリプトをタグ化することでユーザーの意図や目標を特定することもできます。さらに、FAQ、マニュアル、およびドキュメントを注釈してQAシステムを訓練し、複数の言語でテキストをラベル化してより信頼できる機械翻訳ツールを開発します。


私たちのカバー範囲は広く、これらの専門家主導の介入は、曖昧さを解決し、偏見を修正し、文脈を強化することによって、モデルの正確性を直接向上させます。

AIの開発に成功するには、画像の理解も必要です。画像に関連する使用事例をどのように扱いますか?

はい、私たちはビジュアルが支配する世界に住んでいます。Sapienでは、画像ベースのAIの使用事例を最も洗練された方法で視覚データを処理することによって解決します。画像データの専門家チームは、コンピュータビジョンアプリケーションの幅広い範囲をサポートしています。最先端のプラットフォームとテクノロジースタック内でドメインの専門知識を組み込むことは、最も洗練されたAIモデルを駆使するのに役立ちます。私たちは、最も正確な自動運転車システムを開発するために、交通信号、歩行者、路線、その他のオブジェクトを注釈します。私たちは、病気を検出し診断するためにX線、MRI、および顕微鏡画像をラベル化します。私たちは、画像をタグ

最近では、分散化とAIという2つの最先端のテクノロジーパラダイムが効率的にスケールを達成するために結合するという話を多く聞いています。

我々は、大企業が、何百万人もの人々を雇ってデータを作成し、データを構造してモデルを駆動することにより、収益を数十億ドルを稼ぐ集中データ施設に転換するのを見たが、これは実現可能に見えるかもしれない。しかし、AIに対するデータの需要を考慮して、集中型モデルは短縮するだろう。これらのデータ施設は、需要を満たすために必要な数十億人の人々を雇用するためにスケールすることができない。


これが、分散化とAIが強力なシナリオとして結合する場所です。私たちの提案はこれらすべての中から突出しています。我々は、企業のAIモデルと、携帯電話からデータを生成するために報酬を受ける分散化されたAIワーカーのネットワークと一致する人間駆動型のデータファウダーであり、分散化は、スケーラビリティを達成し、品質を維持し、チェーン上の報酬を支払い、ゲーム化された相互作用を通じてプロセスを刺激するのに役立ちます。


最後に、gamification は、データラベル化が面白く、魅力的で、競争的で、即座に有益であることを保証します。これらのすべての要因の組み合わせによって、私たちは多様なAI ワーカーのグローバルなプラットフォームとして出現し、ローカライズされた偏見を減らし、より高い品質のデータを生成するのに役立ちました。



この記事は、HackerNoonのビジネスブログプログラムの下で書かれたものです。

この記事は、HackerNoonのビジネスブログプログラムの下で書かれたものです。

ビジネスブログプログラム


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks