3,629 odczyty
3,629 odczyty

AI potrzebuje lepszych danych, a nie tylko większych modeli

przez Dan Stein4m2025/05/05
Read on Terminal Reader

Za długo; Czytać

LLM szybko się zmieniły, robiąc rzeczy, które wydawały się niemożliwe, ale duże wyzwania pozostają. dyrektor generalny Sapien Rowan Stone dzieli się tym, co działa i co wymaga naprawy.
featured image - AI potrzebuje lepszych danych, a nie tylko większych modeli
Dan Stein HackerNoon profile picture

LLM szybko się zmieniły i zrobiły to szybciej, niż większość z nas się spodziewała. Widzimy, że robią rzeczy, które wydawały się niemożliwe kilka lat temu.SapienówDyrektor generalny Rowan Stone, aby zająć się tym, co działa, co nadal wymaga naprawy i jak Sapien zbliża się do problemu od podstaw.

Sapienów

Ewolucja dużych modeli językowych była fenomenalna w ostatnich latach.Jak oceniasz postępy i jakie obszary mogą się poprawić?

Nie ulega wątpliwości, że przełomy w LLM ukształtowały dzisiejszy krajobraz sztucznej inteligencji. Postępy w ciągu ostatnich kilku lat były fenomenalne - znacząco poprawiły możliwości przetwarzania języka naturalnego. Jednak szkolenie tych modeli wymaga dużych ilości danych. Jest to obszar, który pomimo pomagania firmom dużo, nadal wymaga pracy. Ograniczone zestawy danych są przeszkodą. Mogą pozbawić modele informacji, których potrzebują, aby nauczyć się skutecznego i wydajnego dostarczania usług.


Szanse na wzmocnienie uprzedzeń są prawdziwym problemem, co może prowadzić do powtarzania stereotypów i braku uogólnienia.


Dokładność, skalowalność i wiedza – to trzy nasze filary. Zapewniamy, że dane zebrane do szkolenia LLM są wysokiej jakości. Utworzyliśmy system, w którym LLM można dopasować do ekspertów z ludzką opinią. Proces etykietowania człowieka w łańcuchu pomaga w dostarczaniu informacji zwrotnych w czasie rzeczywistym dla cienkich zestawów danych, aby zbudować najbardziej wydajne i zróżnicowane modele AI.

Uważasz, że ludzkie interwencje ekspertów pomagają poprawić dokładność LLM. Czy mógłbyś wyjaśnić konkretne obszary interwencji?

Wierzymy, że interwencje ekspertów ludzkich są kluczowe dla poprawy dokładności LLM, zwłaszcza w obszarach, w których rozumienie maszyn często jest krótkie. nasi eksperci ds. etykietowania danych tekstowych obsługują szereg aplikacji przetwarzania języka naturalnego.


W celu monitorowania mediów społecznościowych, obsługi klienta i recenzji produktów ludzie mogą anotować tekst, aby pomóc modelom lepiej wykrywać ton i emocje.


Etykietowanie kluczowych zwrotów i zdań pomaga modelom nauczyć się dokładnie podsumować. Szkoleniowcy AI mogą również identyfikować intencje i cele użytkowników poprzez etykietowanie transkrypcji obsługi klienta. Ponadto anotują FAQ, podręczniki i dokumenty w celu szkolenia systemów QA i etykietowania tekstu w wielu językach w celu opracowania bardziej niezawodnych narzędzi do tłumaczenia maszynowego.


Nasz zasięg jest szeroki, a te interwencje prowadzone przez ekspertów bezpośrednio zwiększają dokładność modelu, rozwiązując niejednoznaczność, korygując uprzedzenia i wzmacniając kontekst.

Pomyślny rozwój sztucznej inteligencji wymaga również zrozumienia obrazów.Jak radzisz sobie z przypadkami użytkowania zawierającymi obrazy?

Tak, żyjemy w świecie rządzonym przez wizje. W Sapien rozwiązujemy przypadki wykorzystania sztucznej inteligencji w oparciu o obrazy, przetwarzając dane wizualne w najbardziej wyrafinowany sposób. Nasz zespół ekspertów ds. danych obrazu obsługuje szeroką gamę zastosowań w zakresie wizji komputerowej. Włączenie wiedzy domenowej w najnowocześniejszej platformie i tech stack pomaga nam napędzać najbardziej wyrafinowane modele sztucznej inteligencji. Anotujemy znaki drogowe, pieszych, ścieżki i inne obiekty, aby opracować najbardziej precyzyjne systemy autonomicznych samochodów. Oznakujemy obrazy rentgenowskie, MRI i mikroskopowe w celu wykrywania i diagnozowania chorób. Pomagamy robotom w wykonywaniu zadań wizualnych,

Ostatnio wiele słyszymy o dwóch najnowocześniejszych paradigmach technologicznych - decentralizacji i sztucznej inteligencji - które łączą się, aby osiągnąć skalę w sposób efektywny.

Widzieliśmy, że duże przedsiębiorstwa zwracają się do scentralizowanych obiektów danych, które zarabiają miliardy dolarów, zatrudniając miliony ludzi do tworzenia i struktury danych do zasilania swoich modeli – może się to wydawać opłacalne. Ale biorąc pod uwagę zapotrzebowanie na dane dla sztucznej inteligencji, scentralizowane modele spadną. Te obiekty danych nie mogą rozwijać się, aby zatrudnić miliardy ludzi potrzebnych do zaspokojenia popytu.


Jest to miejsce, w którym decentralizacja i sztuczna inteligencja łączą się jako potężna synergia. Nasza propozycja wyróżnia się pośród tego wszystkiego. Jesteśmy wytwórnią danych zasilanych przez człowieka, która łączy modele sztucznej inteligencji przedsiębiorstw z zdecentralizowaną siecią pracowników sztucznej inteligencji, którzy są nagradzani za produkcję danych z ich telefonów. Decentralizacja pomaga nam osiągnąć skalowalność, zachować jakość, wypłacać nagrody w łańcuchu i sprawia, że proces jest ekscytujący dzięki interakcjom gamifikowanym.


Wreszcie, gamification zapewnia, że etykietowanie danych jest zabawne, angażujące, konkurencyjne i natychmiast satysfakcjonujące.To połączenie wszystkich tych czynników pomogło nam pojawić się jako platforma z globalnym puli różnorodnych pracowników AI, zmniejszając zlokalizowane uprzedzenia i produkując dane o wyższej jakości.



Ten artykuł został napisany w ramach Business Blogging Program HackerNoon.

Ten artykuł został napisany w ramach Business Blogging Program HackerNoon.

Blog biznesowy


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks