300 aflæsninger
300 aflæsninger

Speechify, ElevenLabs, Hume: Hvilken AI stemme kan faktisk føle noget?

ved Simon Y. Blackwell5m2025/05/08
Read on Terminal Reader

For langt; At læse

Artiklen undersøger præstationen af flere tekst-til-tale-motorer med hensyn til både hastighed og kvalitet, når de genererer følelsesmæssigt ladet tale.
featured image - Speechify, ElevenLabs, Hume: Hvilken AI stemme kan faktisk føle noget?
Simon Y. Blackwell HackerNoon profile picture
0-item
1-item

Jeg har skrevet en rækkeArtikler på Hackernoon om AI og empatiI denne artikel bevæger jeg mig ud over den primært tekstorienterede tilgang, jeg har taget i fortiden til at adressere stemmeudgang.


Artiklen undersøger ydeevnen af flere tekst-til-tale-motorer (Eleven Labs, Hume, iCednant Speech, Speechify) i form af både hastighed og kvalitet, der genererer følelsesmæssigt ladet tale. Flere store mærker som Amazon, Google, Microsoft blev ikke evalueret, fordi enten deres platforme gjorde adgang til API-komplekset eller de ikke tilbød direkte følelsesmæssig nuance, f.eks. SSML måtte anvendes (se nedenfor). Alle de evaluerede motorer er fine til kortform konvertering input fra både et hastigheds- og kvalitetsperspektiv, dvs. kun en sætning, hvor der ikke er meget mulighed for følelsesmæssig nuance. Fra et kvalitetsperspektiv er de alle også fine til længere form input, hvor følelsesmæssig nuance ikke kan være kritisk


Artiklen er ikke meget lang, fordi dens fokus er på lyd; derfor vil du bruge mere tid på at lytte, end du læser. Også, som en afsløring, har jeg en økonomisk interesse i succesen af nogle af de platforme, der er dækket, så jeg vil ikke gøre nogen kvalitative sammenligninger.LæserJeg vil begrænse sammenligninger til kvantitative værdier som hastighed og omkostninger.


En note om SSML ... Selvom SSML ser ret kraftfuldt ud på sit ansigt, især når det bruges med konturattributtet, der giver mulighed for at ændre frekvens og volumen ved specifikke millisekundekompensationer, kommer det i sidste ende ikke tæt på at simulere virkelige menneskelige følelser. Den krævede mikroprocedure kan kun matches af neurale processorer.


Bemærk også, at iCendant samarbejder med Speechify for at forbedre deres evne. Speechify virkelig skinner i redigeringsrummet. Det er relativt nyt til realtids API-rummet og iCendant giver Speechify-platformen et løft.

Poetisk

Poesi er et svært domæne at få ret i betragtning af dens varierende volumen, frekvens og følelser, sammen med afhængighed af linjebrud og alternative grammatiske strukturer til fremhævelse.


Efter en stor smerte af Emily Dickinson


Efter stor smerte, en formel følelse kommerNerverne sidder ceremonielt, som TombsDet stive hjerte spørgsmål 'var det han, der bore,'Og 'I går, eller århundreder før'?Fødderne, mekanisk, gå rundtEn træ mådeOf jord, eller luft, eller OughtUregelmæssigt vokset,En kvarts tilfredshed, som en stenDette er timen for blyRemembered, hvis overlevet,Som frysende personer, husk den første sne, så Stupor så afladningen gå

Efter stor smerte kommer en formel følelse
Nerverne sidder ceremonielt, ligesom gravene
Det stive Hjerte spørger "var det Han, der bore,"
”I går eller århundreder før?”
Fødderne, mekanisk, gå rundt
En trævej
af jord, eller luft, eller bør
Uanset hvad man vokser op,
En kvarts tilfredshed, som en sten
Dette er ledelsens time
Husk, hvis du overlever,
Som frysende mennesker, husk sneen
Først chill så stupor så letting go


Platform

Time To Generate

Audio

ElevenLabs

5s

🔊

Hume

13s

🔊

iCendant Speech

5s

🔊

Speechify

3s

🔊

Elefanter

5s

Hume

13s

Icendental tale

5s

taler

3s


Coaching er

Coaching er et hårdt område at få ret i betragtning af behovet for potentielt pludselige følelsesmæssige, hastighed og volumen overgange samtidig med at der tages hensyn til empati.


Volleyball Pep Talk - Genereret af Claude Sonnet 3.5


Hold, saml rundt.Tænk på dig selv. Disse hænder har tjent tusindvis af sæt.Disse ben har hoppet for utallige blokke.Disse lunger har strømmet gennem fem-sæt kampe, når du troede du ikke kunne fortsætte.Men volleyball spilles ikke med hænder eller ben eller lunger alene.Det spilles med hjerte.I dag, vi står over for den hårdeste modstander i vores sæson.De er højere.De er rangeret højere.Statistikkerne siger, at du ikke skal vinde.Men statistikkerne kan ikke måle holdarbejde.Husk, hvem vi er.Du er ikke bare seks personer på et hold - du er en enkelt enhed, der trækker vejret, bevæger sig, og kæmper som en.Når du træder på banen, bærer du hinandens dr

Holdet samles rundt.
Tænk på dig selv. Disse hænder har tjent tusindvis af sæt.
Disse ben har hoppet for utallige blokke.
Disse lunger har strømmet gennem fem sæt kampe, når du troede, at du ikke kunne fortsætte.
Men volleyball spilles ikke med hænder, ben eller lunger alene.
Det blev spillet med hjertet.
I dag står vi over for sæsonens hårdeste modstander.
De er højere.De er rangeret højere.
Statistikkerne siger, at du ikke skal vinde.
Men statistik kan ikke måle teamwork.
Husk hvem vi er.
Du er ikke bare seks personer på en domstol - du er en enkelt enhed, der trækker vejret, bevæger sig og kæmper som en.
Jeg har set dig vokse fra en gruppe talentfulde spillere til noget ekstraordinært.
I de øjeblikke, hvor træthed sætter ind, når tvivl kryber ind i dit sind, husk hvorfor du spiller.
Husk glæden ved et perfekt pass, tilfredsheden ved et rent dræb, den elektriske følelse, når du fejrer sammen.
Spil med passion. Spil med formål. Spil for hinanden.


Platform

Time To Generate

Audio

ElevenLabs

5s

🔊

Hume

20s

🔊

iCendant Speech

4s

🔊

Speechify

3s

🔊

Elefanter

5s

Hume

20s

Icendental tale

4s

taler

3s


meditation

Meditation er et hårdt domæne at få ret i betragtning af behovet for kadens, tælling og glatte følelsesmæssige overgange.


Jeg foreslår, at mens du lytter til meditationer, fokuserer du på at trække vejret fra maven og lukke øjnene.


Åndedrætsmeditation - Genereret af Claude Sonnect v3.5


Vi vil gøre en beroligende øvelse, trække vejret dybt gennem næsen, hold, og udånd derefter gør en whooshing lyd.Inhalere liv 1... 2... Hold fred 1... 2... 3... Udånding spænding 1... 2... 3... 4... Gentag... Indånding... 1... 2... 3... 3... Hold... 1... 2... 3... 4... Udånding... 1... 2... 3... 5... Og endelig... Indånding... 1... 2... 3... 4... Hold... 1... 2... 3... 4... 5... Udånding... 1... 2... 3... 4... 5... 6... Må dit liv være fuld af fred.

Vi vil gøre en beroligende øvelse, trække vejret dybt gennem næsen, hold, og udånd derefter gør en whooshing lyd.Inhalere liv 1... 2... Hold fred 1... 2... 3... Udånding spænding 1... 2... 3... 4... Gentag... Indånding... 1... 2... 3... 3... Hold... 1... 2... 3... 4... Udånding... 1... 2... 3... 5... Og endelig... Indånding... 1... 2... 3... 4... Hold... 1... 2... 3... 4... 5... Udånding... 1... 2... 3... 4... 5... 6... Må dit liv være fuld af fred.



Platform

Time To Generate

Audio

ElevenLabs

5s

🔊

Hume

12- 20s

🔊

iCendant Speech

5s

🔊

Speechify

3s

🔊

Elefanter

5s

Hume

12 - 20s

Icendental tale

5s

taler

3s


Omkostninger og andre oplysninger

Platform

Cost (approximately 1,000 char per minute)

SSML Available

ElevenLabs

$0 to $1,300 per month including fixed usage
2,000 to 22,000 minutes (20,000 to 222,000 chars)
$0.016 to $0.012 per 1,000 chars

No
(limited custom XML)

Hume

$0 to $900 per month including capped usage with overage fees
10,000 to 10,000,00 characters per month
$0.20 to $0.10 per 1,000 chars overage

No

iCendant Speech

$0.008 per 1,000 chars + $10 per month

No

Speechify

$0.001 per 1,000 chars

Yes
(moderate emotion extensions)

Google Neural

$0.016 per 1,000 chars (not evaluated due to limited emotions in extended SSML)

Yes
(very limited emotion extensions)

Elefanter

$0 til $1.300 om måneden inklusive fast brug
2.000 til 22.000 minutter (20.000 til 222.000 kampvogne)
$0.016 til $0.012 pr. 1.000 kampvogne

Nej ikke
(begrænset brug af XML)

Hume

$ 0 til $ 900 pr. Måned inklusive begrænset brug med overaldergebyrer
10.000 til 10.000 tegn pr. måned
$0.20 til $0.10 pr. 1.000 chars overage

Nej ikke

Icendental tale

$0.008 pr. 1.000 tanks + $10 pr. måned

Nej ikke

taler

$ 0,001 pr. 1000 kampvogne

Ja til
(moderat følelsesmæssige udvidelser)

Google Neural

$0.016 pr. 1.000 tanks (ikke evalueret på grund af begrænsede følelser i udvidet SSML)

Ja til
(Meget begrænsede følelsesmæssige udvidelser)

Konklusionen

Hume virker forfærdeligt dyrt i forhold til de andre muligheder, især i betragtning af dens langsommere hastighed.


I sidste ende er det ikke klart, at nogen af platformene i øjeblikket kan håndtere alle behov, selvom jeg ser løfte på krydset af alle deres evner.



Offentliggørelse af interesse: Forfatteren er en delejer af iCendant Speech.

Offentliggørelse af interesse: Forfatteren er en delejer af iCendant Speech.

Offentliggørelse af interesse: Forfatteren er en delejer af iCendant Speech.


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks