300 lukemat
300 lukemat

Speechify, ElevenLabs, Hume: Mikä AI-ääntä voi todella tuntea jotain?

kirjoittaja Simon Y. Blackwell5m2025/05/08
Read on Terminal Reader

Liian pitkä; Lukea

Artikkelissa tutkitaan useiden teksti-sanan moottoreiden suorituskykyä sekä nopeuden että laadun kannalta emotionaalisesti kuormitetun puheen tuottamisessa.
featured image - Speechify, ElevenLabs, Hume: Mikä AI-ääntä voi todella tuntea jotain?
Simon Y. Blackwell HackerNoon profile picture
0-item
1-item

Olen kirjoittanut useitaartikkeleita Hackernoon:stä AI:sta ja empatiaa kohtaanTässä artikkelissa siirrytään ensisijaisesti tekstiin suuntautuneen lähestymistavan ulkopuolelle, jota olen aiemmin ottanut puuttumaan äänitulokseen.


Artikkelissa tutkitaan useiden teksti-to-puhe-moottoreiden (Eleven Labs, Hume, iCednant Speech, Speechify) suorituskykyä sekä nopeuden että laadun kannalta, jotka tuottavat emotionaalisesti ladattua puhetta. Useita suuria tuotemerkkejä, kuten Amazon, Google, Microsoft, ei arvioitu, koska joko niiden alustat tekivät pääsyn API-kompleksiin tai ne eivät tarjonneet suoraa emotionaalista vivahteita, esim. SSML:ää oli käytettävä (katso alla). Kaikki arvioidut moottorit ovat hyviä lyhyen muodon muuntamiseen sekä nopeuden että laadun näkökulmasta, ts. Vain yksi lause, jossa ei ole paljon mahdollisuuksia emotionaaliseen vivahteeseen. Laadun näkökulmasta ne ovat myös hyviä


Artikkeli ei ole kovin pitkä, koska se keskittyy ääniin; siksi käytät enemmän aikaa kuuntelemiseen kuin luet. Myös julkisuuden tavoin minulla on taloudellinen kiinnostus joidenkin katettujen alustojen menestykseen, joten en tee mitään laadullisia vertailuja.lukijaKuuntelija päättää, mitkä moottorit toimivat parhaiten millä skenaarioilla. rajoitamme vertailuja määrällisiin arvoihin, kuten nopeuteen ja kustannuksiin.


Huomautus SSML: stä ... Vaikka SSML näyttää melko voimakkaalta kasvoillaan, varsinkin kun sitä käytetään ääriviivojen ominaisuuden kanssa, joka mahdollistaa taajuuden ja äänenvoimakkuuden vaihtamisen tietyissä millisekunnin kompensoinneissa, päivän päätteeksi se ei tule lähelle todellisten ihmisten tunteiden simulointia. Vaadittu mikroprosodia voidaan yhdistää vain hermoprosessoreilla.


Huomaa myös, että iCendant on tehnyt yhteistyötä Speechifyn kanssa parantaakseen kykyjään. Speechify todella loistaa muokkausalueella. Se on suhteellisen uusi reaaliaikaiseen API-tilaan ja iCendant antaa Speechify-alustalle nostetta.

runoja

Runous on vaikea ala saada oikein ottaen huomioon sen vaihteleva äänenvoimakkuus, taajuus ja tunne, sekä riippuvuus rivien taukoista ja vaihtoehtoisista kieliopillisista rakenteista korostamiseksi.


Suuren kivun jälkeen - Emily Dickinson


Suuren kivun jälkeen muodollinen tunne tuleeNervet istuvat seremoniallisesti, kuten haudatKipu sydän kysyy: "Oliko se hän, joka poroi,"Ja "Eilinen, tai vuosisatoja ennen"?Jalat, mekaaniset, kulkevat ympäriinsäPuuinen tapaMaasta, tai Ilmasta, tai OughtSopimattomasti kasvanut,Kvartsin tyytyväisyys, kuin kiviTämä on lyijyn tuntiMuistettu, jos ylittynyt,Jäähdytettyinä henkilöinä, muista ensimmäinen jäähdytys sitten Stupor sitten päästää irti

Suuren kivun jälkeen muodollinen tunne tulee
Hermot istuvat seremoniallisesti, kuten haudat
Kova sydän kysyy: ”Oliko hän se, joka purskahti?”
Eilen vai vuosisatoja sitten?
Jalka, mekaaninen, kävele ympäri
Puinen tapa
Maasta, tai ilmasta, tai pitäisi
riippumatta siitä, miten kasvaa,
Quartzin tyytyväisyys, kuin kivi
Tämä on johdon hetki
Muistakaa, jos olette kuolleet
Jäätyneiden ihmisten tapaan muistakaa lumi
Ensin Chill sitten Stupor sitten Letting Go


Platform

Time To Generate

Audio

ElevenLabs

5s

🔊

Hume

13s

🔊

iCendant Speech

5s

🔊

Speechify

3s

🔊

Elefanttien

5s

Humea

13 s

Äänekäs puhe

5s

puheeksi

3s


Coachingissa

Valmennus on vaikea ala saada oikein, koska se tarvitsee mahdollisesti äkillisiä emotionaalisia, nopeus- ja tilavuusliikkeitä ottaen huomioon myös empatiaa.


Volleyball Pep Talk - Luonut Claude Sonnet 3.5


Joukkue, kokoontuvat.Ajattele itseäsi. Nämä kädet ovat palvelleet tuhansia sarjoja.Nämä jalat ovat hyppäsi lukemattomia lohkoja.Nämä keuhkot ovat voineet läpi viiden sarjan otteluita, kun luulit, että et voi jatkaa.Mutta jalkapallo ei pelata kädet tai jalat tai keuhkot yksin.Se pelataan sydämellä.Tänään, me kohtaamme vaikein vastustaja kauden.He ovat korkeammat.He ovat sijoittuneet korkeammalle.Tilastot sanovat sinun ei pitäisi voittaa.Mutta tilastot eivät voi mitata tiimityötä.Muista kuka olemme.Et ole vain kuusi yksilöä kentällä - olet yksi yksikkö, joka hengittää, liikkuu, ja taistelee kuin yksi.Kun ast

Joukkue, kokoontuvat.Ajattele itseäsi. Nämä kädet ovat palvelleet tuhansia sarjoja.Nämä jalat ovat hyppäsi lukemattomia lohkoja.Nämä keuhkot ovat voineet läpi viiden sarjan otteluita, kun luulit, että et voi jatkaa.Mutta jalkapallo ei pelata kädet tai jalat tai keuhkot yksin.Se pelataan sydämellä.Tänään, me kohtaamme vaikein vastustaja kauden.He ovat korkeammat.He ovat sijoittuneet korkeammalle.Tilastot sanovat sinun ei pitäisi voittaa.Mutta tilastot eivät voi mitata tiimityötä.Muista kuka olemme.Et ole vain kuusi yksilöä kentällä - olet yksi yksikkö, joka hengittää, liikkuu, ja taistelee kuin yksi.Kun ast


Platform

Time To Generate

Audio

ElevenLabs

5s

🔊

Hume

20s

🔊

iCendant Speech

4s

🔊

Speechify

3s

🔊

Elefanttien

5s

Humea

20s

Äänekäs puhe

4s

puheeksi

3s


Meditaatio

Meditaatio on vaikea alue saada oikein, koska se tarvitsee kadenssia, laskemista ja sujuvia emotionaalisia siirtymiä.


Suosittelen, että kun kuuntelet meditaatioita, keskityt hengittämiseen vatsastasi ja silmäsi sulkemiseen.


Hengitysmeditaatio - Generated by Claude Sonnect v3.5


Hengitä elämää 1... 2... 3... Hengitä jännitystä 1... 2... 3... 4... Toista... Hengitä... 1... 2... 3... 3... Pidä... 1... 2... 3... 4... Hengitä... 1... 2... 3... 4... Hengitä... 1... 2... 3... 4... Hengitä... 1... 2... 3... 5... 5... Ja lopuksi... Hengitä... 1... 2... 3... 4... Pidä... 1... 2... 3... 4... 5... Hengitä... 1... 2... 3... 4... 5... 6... Olkoon elämäsi täynnä rauhaa.

Teemme rauhoittavan harjoituksen, hengitä syvään nenän kautta, pidä kiinni ja hengitä sitten tekemällä whooshing ääni.
Hengitä elämää 1 ... 2 ...
Pidä rauha 1 ... 2 ... 3 ...
Hengitysjännite 1 ... 2 ... 3 ... 4 ...
Toistetaan...
Hengitä... 1 ... 2 ... 3 ...
Pidä... 1 ... 2 ... 3 ... 4 ...
1 ... 2 ... 3 ... 4 ... 5 ...
Ja lopuksi...
Hengitä... 1 ... 2 ... 3 ... 4 ...
1 ... 2 ... 3 ... 4 ... 5 ...
1 ... 2 ... 3 ... 4 ... 5 ... 6 ...
Olkoon elämäsi täynnä rauhaa.
Olkoon jännityksesi tuulen kuiskaamassa puissa.



Platform

Time To Generate

Audio

ElevenLabs

5s

🔊

Hume

12- 20s

🔊

iCendant Speech

5s

🔊

Speechify

3s

🔊

Elefanttien

5s

Humea

12 - 20 s

Äänekäs puhe

5s

puheeksi

3s


Kustannukset ja muut tiedot

Platform

Cost (approximately 1,000 char per minute)

SSML Available

ElevenLabs

$0 to $1,300 per month including fixed usage
2,000 to 22,000 minutes (20,000 to 222,000 chars)
$0.016 to $0.012 per 1,000 chars

No
(limited custom XML)

Hume

$0 to $900 per month including capped usage with overage fees
10,000 to 10,000,00 characters per month
$0.20 to $0.10 per 1,000 chars overage

No

iCendant Speech

$0.008 per 1,000 chars + $10 per month

No

Speechify

$0.001 per 1,000 chars

Yes
(moderate emotion extensions)

Google Neural

$0.016 per 1,000 chars (not evaluated due to limited emotions in extended SSML)

Yes
(very limited emotion extensions)

Elefanttien

0–1300 dollaria kuukaudessa, mukaan lukien kiinteä käyttö
2 000 - 22 000 minuuttia (20 000 - 222 000 panssarivaunua)
$0.016 - $0.012 per 1000 panssarivaunu

Ei
(Rajoitettu mukautettu XML)

Humea

0–900 dollaria kuukaudessa, mukaan lukien rajoitettu käyttö ikääntymismaksujen kanssa
10 000 - 10 000 merkkiä kuukaudessa
$0.20 - $0.10 per 1000 panssarivaunua yli ikä

Ei

Äänekäs puhe

0,008 dollaria 1000 panssarivaunua kohden + 10 dollaria kuukaudessa

Ei

puheeksi

0,001 dollaria 1000 panssarivaunua kohden

Kyllä
(Keskiarvoiset tunteiden laajennukset

Googlen neuronit

0,016 dollaria tuhatta panssarivaunua kohden (ei arvioitu rajoitettujen tunteiden vuoksi laajennetussa SSML:ssä)

Kyllä
(Hänellä on hyvin rajalliset tunteet)

Johtopäätös

Hume näyttää hirveän kalliilta verrattuna muihin vaihtoehtoihin, varsinkin kun otetaan huomioon sen hitaampi nopeus.


Lopulta ei ole selvää, että jokin alustoista pystyy tällä hetkellä käsittelemään kaikkia tarpeita, vaikka näen lupauksen kaikkien kykyjensä risteyksessä.



Kiinnostuksen paljastaminen: Kirjoittaja on iCendant Speechin osakas.

Kiinnostuksen paljastaminen: Kirjoittaja on iCendant Speechin osakas.

Kiinnostuksen paljastaminen: Kirjoittaja on iCendant Speechin osakas.


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks