3,614 mga pagbabasa
3,614 mga pagbabasa

Ang AI ay kailangan ng mas mahusay na data, hindi lamang ng mas mahusay na mga modelo

sa pamamagitan ng Dan Stein4m2025/05/05
Read on Terminal Reader

Masyadong mahaba; Upang basahin

Ang mga LLM ay nagbabago nang mabilis - upang gawin ang mga bagay na natutunan ay hindi maaaring. Ngunit ang mga malaking mga problema ay patuloy. CEO ng Sapien na si Rowan Stone ay nagsasalita kung ano ang gumagana at kung ano ang kinakailangan upang i-fix.
featured image - Ang AI ay kailangan ng mas mahusay na data, hindi lamang ng mas mahusay na mga modelo
Dan Stein HackerNoon profile picture

Ang mga LLMs ay nagbabago na mabilis at sila ay ginawa kaya mas mabilis kaysa sa karamihan sa amin ay inaasahan. Kami ay nakikita sila upang gawin ang mga bagay na natutuwa imposible sa ilang taon na ang nakalipas. Ngunit sa likod ng lahat ng hype, mayroon pa rin ang mga malaking mga problema, lalo na sa paligid ng data na nagtatrabaho ang mga modelo na ito.Sapien’sAng CEO Rowan Stone upang makakuha ng kanyang pakikipag-ugnayan sa kung ano ang gumagana, kung ano ang kailangan upang i-fix, at kung paano ang Sapien ay tumutulong sa problema mula sa bundok.

Sapiens ang

Ang pag-unlad ng Big Language Models ay phenomenal sa nakaraang ilang taon. Paano mo tinatanggap ang pag-unlad, at kung ano ang mga lugar na maaaring mapabuti?

Ibig sabihin, not counted... hindi ibig sabihin kapuri-puri ka dahil marami kang tinapos na kurso. marami kang tinapos na kurso. marami kang tinapos na kurso.


Ang mga pagkakataon ng bias amplification ay isang tunay na pangangailangan, na maaaring humantong sa repetition ng mga stereotype at isang mangyayari sa generalizability.


Kami, sa Sapien, tumutulong sa challenge na ito head-on. Akuratidad, scalability, at karanasan - ang tatlong ito ay ang aming mga pilaryo. Nagbibigay kami na ang data na nakuha para sa pag-training ng LLM ay mataas na kalidad. Kami ay bumuo ng isang sistema kung saan ang LLM ay maaaring fired-tuned na may expert human feedback. Ang isang human-in-the-loop labeling proseso ay tumutulong sa paghahatid ng real-time feedback para sa fine-tuning datasets upang bumuo ang pinaka-performance at diferensed AI mga modelo.

Ikaw ay naniniwala na ang mga intervention ng mga eksperto ng tao ay tumutulong sa pagbutihin ang accuracy ng LLM. Maaari mong i-elaborate sa mga espesyal na mga lugar ng intervention?

Kami ay naniniwala na ang mga intervention ng mga eksperto ng tao ay mahalaga para sa pagbutihin ang accuracy ng LLM, lalo na sa mga lugar kung saan ang pag-uugali ng makina ay karaniwang nakalipas. Ang aming mga eksperto sa paglabas ng data ng teksto ay sumusuporta sa isang serye ng mga application ng Natural Language Processing.


Para sa social media monitoring, customer support, at mga review ng produkto, ang mga tao ay maaaring anotate text sentiment upang makatulong sa mga modelo na mas mahusay na pag-detect ang tone at emosyon. Para sa search analytics at mga rekomendasyon, ang mga tao, mga organisasyon, at mga lokasyon upang mapabuti ang entity recognition.


Ang pag-tag ng mga key phrases at sentences ay nagbibigay-daan sa mga modelo upang malaman kung paano mag-summarize nang maayos. Ang mga trainer ng AI ay maaaring mag-identify ang mga intents at mga target ng mga gumagamit sa pamamagitan ng pag-tag ng mga transcripts ng customer service. Sa karagdagang, nag-annotate ang mga FAQ, mga manual, at mga dokumento upang i-train ang QA systems, at ang mga tag ng teksto sa ilang mga wika upang bumuo ng mas reliable machine translation tools.


Ang aming pakikipagtulungan ay malakas, at ang mga eksperto-led interventions ay direktang mapabuti ang model accuracy sa pamamagitan ng pag-uugali ng ambiguity, pag-correct bias, at pinamamahala ng konteksto.

Ang pag-uugali ng AI ay kinakailangan din ng isang pag-uugali ng imahe. Paano mo tumutulong sa mga kaso ng paggamit na naglalaman ng imahe?

Oo, buhay namin sa isang mundo na pinapanood ng visual. Sa Sapien, tumutulong namin sa mga kaso ng paggamit ng AI na batay sa imahe sa pamamagitan ng paghahatid ng mga visual na data sa pinakamataas na paraan. Ang aming team ng mga eksperto sa data ng imahe ay sumusuporta sa isang iba't-ibang mga application ng computer vision. Ang paghahatid ng kaalaman sa domain sa loob ng isang pandaigdigang platform at tech stack ay tumutulong sa amin sa paghahatid ng mga pinakamataas na mga modelo ng AI. Nag-anot ang mga sikat, pedestrian, mga linya, at iba't-ibang mga objekto upang bumuo ng pinakamataas na mga sistema ng self-driving car. Nag-etiket ng X-ray, MRI, at mga imahe ng microscopy upang

Sa katunayan, narinig namin ang maraming tungkol sa dalawang pangunahing mga paradigma ng teknolohiya - decentralization at AI - na makipag-ugnayan upang makakuha ng scale efficiently.

Nakita namin ang mga pangunahing kumpanya na pumunta sa centralized data facilities na makakuha ng bilyon-milyong mga revenue sa pamamagitan ng mag-employment ng milyon-milyong mga tao upang lumikha at pag-aralan ang data upang i-fuel ang kanilang mga modelo - ito ay maaaring magiging mahirap. Ngunit, dahil sa pangangailangan para sa data para sa AI, ang mga centralized modelo ay magpapatuloy. Ang mga data facilities na ito ay hindi maaaring mag-scale upang mag-employ ang mga bilyon-milyong mga tao na kinakailangan upang matugunan ang demand. Sa karamihan, hindi sila maaaring makakuha ng mga specialized talent, na kailangan upang lumikha ng mataas na kalidad ng data upang lumikha ng AI sa human-level reasoning.


Ito ay kung saan ang decentralization at AI ay sumali bilang isang malakas na sinergya. Ang aming proposal ay magkakaiba sa pagitan ng lahat ng ito. Kami ay isang human-powered data foundry na matugunan ng mga modelo ng enterprise AI sa isang desentralized network ng AI Workers na makakakuha ng mga reward upang lumikha ng data mula sa kanilang mga telepono. Decentralization ay nagbibigay-daan sa amin upang makakuha ng scalability, makuha ang kalidad, paghahatid ng on-chain rewards, at gumawa ng proseso ng mahigpit sa pamamagitan ng gamified interactions.


Sa katunayan, ang gamification ay nagbibigay-daan na ang data labelling ay masaya, mahigpit, competitive, at instantly na-rewarding. Ito ay ang pag-uusap ng lahat ng mga ito na nag-aalok sa amin na lumikha bilang isang platform na may isang global pool ng diversified AI Workers, na magdadala ng localized bias at lumikha ng mas mataas na kalidad ng data.



Ang artikulong ito ay itinatag sa ilalim ng HackerNoon's Business Blogging Program.

Ang artikulong ito ay itinatag sa ilalim ng HackerNoon's Business Blogging Program.

Mga Blog sa Negosyo


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks