I LLM sono cambiati rapidamente e hanno fatto così più velocemente di quanto la maggior parte di noi si aspettava. stiamo vedendo loro fare cose che sembravano impossibili qualche anno fa. Ma dietro a tutto il hype, ci sono ancora grandi sfide, specialmente intorno ai dati che formano questi modelli.
L’evoluzione dei grandi modelli linguistici è stata fenomenale negli ultimi anni.Come valuti i progressi e quali sono le aree che potrebbero migliorare?
È innegabile che i progressi nei LLM abbiano modellato il paesaggio dell'IA di oggi. I progressi degli ultimi anni sono stati fenomenali - hanno migliorato notevolmente le capacità di elaborazione del linguaggio naturale. Tuttavia, la formazione di questi modelli richiede grandi volumi di dati. È un'area che, nonostante aiuti le aziende molto, richiede ancora lavoro. Set di dati limitati sono un ostacolo. Possono privare i modelli delle informazioni di cui hanno bisogno per imparare per una fornitura efficace ed efficiente dei servizi.
Le probabilità di amplificazione dei pregiudizi sono una vera preoccupazione, che può portare alla ripetizione di stereotipi e alla mancanza di generalizzabilità.
La precisione, la scalabilità e l'esperienza - questi tre sono i nostri pilastri. Ci assicuriamo che i dati raccolti per la formazione LLM siano di alta qualità. Abbiamo formato un sistema in cui i LLM possono essere raffinati con feedback umani esperti. Un processo di etichettatura umano-in-the-loop aiuta a fornire feedback in tempo reale per i set di dati raffinati per costruire i modelli AI più performanti e differenziati.
Credi che gli interventi di esperti umani aiutino a migliorare l'accuratezza del LLM. Puoi elaborare le aree di intervento specifiche?
Crediamo che gli interventi degli esperti umani siano cruciali per migliorare l'accuratezza del LLM, specialmente nelle aree in cui la comprensione delle macchine è spesso scarsa.I nostri esperti di etichettatura dei dati di testo supportano una serie di applicazioni di Processing del linguaggio naturale.
Per il monitoraggio dei social media, il supporto clienti e le recensioni dei prodotti, gli esseri umani possono annotare il sentimento di testo per aiutare i modelli a rilevare meglio il tono e l'emozione.
L'etichettatura di frasi e frasi chiave aiuta i modelli a imparare a riassumere in modo accurato.I formatori AI possono anche identificare le intenzioni e gli obiettivi degli utenti etichettando le transcrizioni del servizio clienti.Inoltre, annotano FAQ, manuali e documenti per formare i sistemi QA e etichettano il testo in più lingue per sviluppare strumenti di traduzione automatica più affidabili.
La nostra copertura è ampia, e questi interventi guidati da esperti migliorano direttamente la precisione del modello risolvendo l'ambiguità, correggendo i pregiudizi e rafforzando il contesto.
Lo sviluppo di AI di successo richiede anche una comprensione delle immagini.Come si affrontano i casi di utilizzo che coinvolgono le immagini?
Sì, viviamo in un mondo governato dalle immagini. A Sapien, affrontiamo casi di utilizzo dell'IA basati sull'immagine manipolando i dati visivi nel modo più sofisticato possibile. Il nostro team di esperti dei dati di immagine supporta una vasta gamma di applicazioni di visione computerizzata. L'inclusione di competenze di dominio all'interno di una piattaforma all'avanguardia e di una pila tecnologica ci aiuta a alimentare i modelli AI più sofisticati. Annotamo segni di traffico, pedoni, strade e altri oggetti per sviluppare i sistemi di guida autonoma più precisi. Etichettiamo le immagini a raggi X, MRI e microscopia per rilevare e diagnosticare le malattie. Aiutiamo i robot a svolgere compiti visivi taggando
Di recente, sentiamo molto parlare di due paradigmi tecnologici all’avanguardia – la decentralizzazione e l’IA – che si uniscono per raggiungere la scala in modo efficiente.
Abbiamo visto le grandi aziende rivolgersi a impianti di dati centralizzati che guadagnano miliardi di dollari impiegando milioni di persone per creare e strutturare i dati per alimentare i loro modelli - questo può sembrare fattibile.Ma, data la domanda di dati per l'IA, i modelli centralizzati saranno scarsi.Queste strutture di dati non possono scalare per impiegare i miliardi di persone necessari per soddisfare la domanda.Inoltre, non possono attirare talenti specializzati, che sono necessari per produrre dati di alta qualità per avanzare l'IA al ragionamento a livello umano.
È qui che decentralizzazione e intelligenza artificiale si uniscono come una potente sinergia. La nostra proposta si distingue in mezzo a tutto questo. Siamo una forgiatura di dati alimentata dall'uomo che corrisponde ai modelli di intelligenza artificiale aziendale con una rete decentralizzata di lavoratori di intelligenza artificiale che vengono ricompensati per produrre dati dai loro telefoni. La decentralizzazione ci aiuta a raggiungere la scalabilità, a mantenere la qualità, a pagare le ricompense in catena e a rendere il processo eccitante attraverso le interazioni gamificate.
Infine, la gamification assicura che l'etichettatura dei dati sia divertente, coinvolgente, competitiva e immediatamente gratificante. È la combinazione di tutti questi fattori che ci hanno aiutato a emergere come piattaforma con un pool globale di lavoratori AI diversi, riducendo i pregiudizi localizzati e producendo dati di qualità superiore.
Questa storia è stata scritta sotto il programma di blogging aziendale di HackerNoon.
Questa storia è stata scritta sotto il programma di blogging aziendale di HackerNoon.
Programma di business blogging