306 lezingen
306 lezingen

Speechify, ElevenLabs, Hume: Welke AI-stem kan echt iets voelen?

door Simon Y. Blackwell5m2025/05/08
Read on Terminal Reader

Te lang; Lezen

Het artikel onderzoekt de prestaties van verschillende tekst-to-spreekmotoren in termen van zowel snelheid als kwaliteit bij het genereren van emotioneel geladen spraak.
featured image - Speechify, ElevenLabs, Hume: Welke AI-stem kan echt iets voelen?
Simon Y. Blackwell HackerNoon profile picture
0-item
1-item

Ik heb een aantalArtikelen op Hackernoon over AI en empathieIn dit artikel ga ik verder dan de voornamelijk tekstgeoriënteerde aanpak die ik in het verleden heb genomen om spraakuitvoer aan te pakken.


Het artikel onderzoekt de prestaties van verschillende text-to-speech-motoren (Eleven Labs, Hume, iCednant Speech, Speechify) in termen van zowel snelheid als kwaliteit die emotioneel geladen spraak genereert. Verschillende grote merken zoals Amazon, Google, Microsoft werden niet geëvalueerd omdat ofwel hun platforms de toegang tot het API-complex maakten of ze geen directe emotionele nuance aanbiedten, bijvoorbeeld SSML moest worden gebruikt (zie hieronder). Alle geëvalueerde motoren zijn goed voor korte vormen om invoer te converteren vanuit zowel een snelheid als een kwaliteitsperspectief, d.w.z. slechts één zin waar er niet veel kans is voor emotionele nuance. Vanuit een kwaliteitsperspectief zijn ze allemaal ook goed voor langere vormen invoer waar emotionele nuance misschien niet


Het artikel is niet erg lang omdat het zich richt op audio; dus je zult meer tijd besteden aan luisteren dan je leest. Ook, door middel van openbaarmaking, heb ik een financieel belang in het succes van sommige van de platforms die worden gedekt, dus ik zal geen kwalitatieve vergelijkingen maken.lezerIk zal vergelijkingen beperken tot kwantitatieve waarden zoals snelheid en kosten.


Een opmerking over SSML ... Hoewel SSML behoorlijk krachtig lijkt op zijn gezicht, vooral wanneer het wordt gebruikt met het contour-attribuut dat het mogelijk maakt om frequentie en volume te veranderen bij specifieke millisecondencompensaties, komt het uiteindelijk niet dichter bij het simuleren van echte menselijke emoties. De vereiste microprocedure kan alleen worden gekoppeld door neurale processoren.


Merk ook op dat iCendant samenwerkt met Speechify om hun mogelijkheden te verbeteren. Speechify schijnt echt in de bewerkingsruimte. Het is relatief nieuw voor de real-time API-ruimte en iCendant geeft het Speechify-platform een lift.

Poëzie

Poëzie is een moeilijk domein om goed te krijgen gezien het variërende volume, cadentie en emotie, samen met afhankelijkheid van lijnbreuken en alternatieve grammaticale structuren voor benadrukking.


Na een grote pijn - Emily Dickinson


Na grote pijn, een formeel gevoel komtDe zenuwen zitten ceremoniële, zoals gravenHet stijve hart vragen 'was het Hij, dat boren,'En 'Gisteren, of eeuwen geleden'?De voeten, mechanisch, rondlopenEen houten manierOf grond, of lucht, of OughtOf onvoorwaardelijk gegroeid,Een kwartz voldoening, als een steenDit is de uur van loodGedenkt, als overleefd,Als bevriezende mensen, herinneren de eerste sneeuw, dan Stupor dan het loslaten

Na grote pijn komt een formeel gevoel
De zenuwen zitten ceremonieel, als graven
Het stijve hart vraagt ‘was het Hij, die boren’,
En ‘gisteren of eeuwen geleden’?
De voeten, mechanisch, ga rond
Een houten weg
van de grond, of van de lucht, of van de
Ongeacht de groei,
Een kwartsvreugde, als een steen
Dit is het uur van de leiding
Vergeet niet, als je overleeft,
Als bevriezende mensen, herinner je de sneeuw
Eerst chill dan stupor dan het loslaten


Platform

Time To Generate

Audio

ElevenLabs

5s

🔊

Hume

13s

🔊

iCendant Speech

5s

🔊

Speechify

3s

🔊

Elefanten

5s

Hume

13s

Icendente toespraak

5s

Toespraak

3s


Coaching

Coaching is een moeilijk domein om goed te krijgen, gezien de behoefte aan potentieel abrupte emotionele, snelheids- en volumeovergangen, terwijl ook empathie in aanmerking wordt genomen.


Volleyball Pep Talk - gegenereerd door Claude Sonnet 3.5


Team, verzamel je.Bedenk jezelf. Die handen hebben duizenden sets gediend.Deze benen hebben voor talloze blokken gesprongen.Deze longen hebben door vijf-set wedstrijden gevoed toen je dacht dat je niet kon doorgaan.Maar volleyball wordt niet gespeeld met de handen of benen of longen alleen.Het wordt gespeeld met het hart.Vandaag, we worden geconfronteerd met de moeilijkste tegenstander van ons seizoen.Ze zijn hoger.Ze zijn gerangschikt hoger.De statistieken zeggen dat je niet moet winnen.Maar statistieken kunnen niet teamwork meten.Vergeet niet wie we zijn.Je bent niet zomaar zes personen op een veld - je bent een enkele eenheid die ademt, beweegt, en vecht als één.Wanneer je stapt op

Team, verzamel je.Bedenk jezelf. Die handen hebben duizenden sets gediend.Deze benen hebben voor talloze blokken gesprongen.Deze longen hebben door vijf-set wedstrijden gevoed toen je dacht dat je niet kon doorgaan.Maar volleyball wordt niet gespeeld met de handen of benen of longen alleen.Het wordt gespeeld met het hart.Vandaag, we worden geconfronteerd met de moeilijkste tegenstander van ons seizoen.Ze zijn hoger.Ze zijn gerangschikt hoger.De statistieken zeggen dat je niet moet winnen.Maar statistieken kunnen niet teamwork meten.Vergeet niet wie we zijn.Je bent niet zomaar zes personen op een veld - je bent een enkele eenheid die ademt, beweegt, en vecht als één.Wanneer je stapt op


Platform

Time To Generate

Audio

ElevenLabs

5s

🔊

Hume

20s

🔊

iCendant Speech

4s

🔊

Speechify

3s

🔊

Elefanten

5s

Hume

20s

Icendente toespraak

4s

Toespraak

3s


Meditatie

Meditatie is een moeilijk domein om goed te krijgen, gezien de behoefte aan cadentie, tellen en soepele emotionele overgangen.


Ik stel voor dat je tijdens het luisteren naar de meditaties je richt op het ademen van je buik en het sluiten van je ogen.


Ademhaling Meditatie - Gegenereerd door Claude Sonnect v3.5


We zullen een kalmerende oefening doen, diep door je neus ademen, vasthouden en vervolgens uitademen, waardoor een whooshing geluid.Inhaleren leven 1... 2... Houd rust 1... 2... 3... Uitademen spanning 1... 2... 3... 4... Herhaal... Inhaleren... 1... 2... 3... 3... Houd... 1... 2... 3... 4... 4... Uitademen... 1... 2... 3... 5... En eindelijk... Inhaleren... 1... 2... 3... 4... Houd... 1... 2... 3... 4... 5... Uitademen... 1... 2... 3... 4... 5... 6... Moge je leven vol vrede zijn.

We zullen een kalmerende oefening doen, diep ademen door je neus, vasthouden en vervolgens uitademen, waardoor een whooshing geluid wordt gemaakt.
Inademing van het leven 1 ... 2 ...
Houd vrede 1 ... 2 ... 3 ...
Exhale spanning 1 ... 2 ... 3 ... 4 ...
Herhaal...
Inademing... 1 ... 2 ... 3 ...
Houd... 1 ... 2 ... 3 ... 4 ...
1 ... 2 ... 3 ... 4 ... 5 ...
En eindelijk...
Inademing... 1 ... 2 ... 3 ... 4 ...
Houd... 1 ... 2 ... 3 ... 4 ... 5 ...
1 ... 2 ... 3 ... 4 ... 5 ... 6 ...
Moge je leven vol vrede zijn.
Moge uw spanningen worden overgenomen door de wind die in de bomen fluistert.



Platform

Time To Generate

Audio

ElevenLabs

5s

🔊

Hume

12- 20s

🔊

iCendant Speech

5s

🔊

Speechify

3s

🔊

Elefanten

5s

Hume

12 - 20s

Icendente toespraak

5s

Toespraak

3s


Kosten en andere informatie

Platform

Cost (approximately 1,000 char per minute)

SSML Available

ElevenLabs

$0 to $1,300 per month including fixed usage
2,000 to 22,000 minutes (20,000 to 222,000 chars)
$0.016 to $0.012 per 1,000 chars

No
(limited custom XML)

Hume

$0 to $900 per month including capped usage with overage fees
10,000 to 10,000,00 characters per month
$0.20 to $0.10 per 1,000 chars overage

No

iCendant Speech

$0.008 per 1,000 chars + $10 per month

No

Speechify

$0.001 per 1,000 chars

Yes
(moderate emotion extensions)

Google Neural

$0.016 per 1,000 chars (not evaluated due to limited emotions in extended SSML)

Yes
(very limited emotion extensions)

Elefanten

$0 tot $1.300 per maand inclusief vast gebruik
2000 tot 22.000 minuten (20.000 tot 222.000 tanks)
$0.016 tot $0.012 per 1.000 tanks

niet
(Beperkt gebruik van XML)

Hume

$ 0 tot $ 900 per maand inclusief beperkt gebruik met overleeftijdskosten
10.000 tot 10.000,00 tekens per maand
$0.20 tot $0.10 per 1.000 chars overleven

niet

Icendente toespraak

$0.008 per 1000 tanks + $10 per maand

niet

Toespraak

$ 0,001 per 1000 tanks

Ja wel
(met matige emotionele uitbreidingen)

Google Neural

$0.016 per 1.000 tanks (niet beoordeeld vanwege beperkte emoties in uitgebreide SSML)

Ja wel
(zeer beperkte emotionele uitbreidingen)

Conclusie

Hume lijkt vreselijk duur in vergelijking met de andere opties, vooral gezien de langzamere snelheid.


Uiteindelijk is het niet duidelijk welke van de platforms momenteel alle behoeften kan verwerken, hoewel ik veelbelovend zie op het kruispunt van al hun mogelijkheden.



Uitgedrukt belang openbaarmaking: de auteur is een gedeeltelijke eigenaar van iCendant Speech.

Uitgedrukt belang openbaarmaking: de auteur is een gedeeltelijke eigenaar van iCendant Speech.

Uitgedrukt belang openbaarmaking: de auteur is een gedeeltelijke eigenaar van iCendant Speech.


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks