Jeg har skrevet en rækkeArtikler på Hackernoon om AI og empatiI denne artikel bevæger jeg mig ud over den primært tekstorienterede tilgang, jeg har taget i fortiden til at adressere stemmeudgang.
Artiklen undersøger ydeevnen af flere tekst-til-tale-motorer (Eleven Labs, Hume, iCednant Speech, Speechify) i form af både hastighed og kvalitet, der genererer følelsesmæssigt ladet tale. Flere store mærker som Amazon, Google, Microsoft blev ikke evalueret, fordi enten deres platforme gjorde adgang til API-komplekset eller de ikke tilbød direkte følelsesmæssig nuance, f.eks. SSML måtte anvendes (se nedenfor). Alle de evaluerede motorer er fine til kortform konvertering input fra både et hastigheds- og kvalitetsperspektiv, dvs. kun en sætning, hvor der ikke er meget mulighed for følelsesmæssig nuance. Fra et kvalitetsperspektiv er de alle også fine til længere form input, hvor følelsesmæssig nuance ikke kan være kritisk
Artiklen er ikke meget lang, fordi dens fokus er på lyd; derfor vil du bruge mere tid på at lytte, end du læser. Også, som en afsløring, har jeg en økonomisk interesse i succesen af nogle af de platforme, der er dækket, så jeg vil ikke gøre nogen kvalitative sammenligninger.LæserJeg vil begrænse sammenligninger til kvantitative værdier som hastighed og omkostninger.
En note om SSML ... Selvom SSML ser ret kraftfuldt ud på sit ansigt, især når det bruges med konturattributtet, der giver mulighed for at ændre frekvens og volumen ved specifikke millisekundekompensationer, kommer det i sidste ende ikke tæt på at simulere virkelige menneskelige følelser. Den krævede mikroprocedure kan kun matches af neurale processorer.
Bemærk også, at iCendant samarbejder med Speechify for at forbedre deres evne. Speechify virkelig skinner i redigeringsrummet. Det er relativt nyt til realtids API-rummet og iCendant giver Speechify-platformen et løft.
Poetisk
Poesi er et svært domæne at få ret i betragtning af dens varierende volumen, frekvens og følelser, sammen med afhængighed af linjebrud og alternative grammatiske strukturer til fremhævelse.
Efter en stor smerte af Emily Dickinson
Efter stor smerte, en formel følelse kommerNerverne sidder ceremonielt, som TombsDet stive hjerte spørgsmål 'var det han, der bore,'Og 'I går, eller århundreder før'?Fødderne, mekanisk, gå rundtEn træ mådeOf jord, eller luft, eller OughtUregelmæssigt vokset,En kvarts tilfredshed, som en stenDette er timen for blyRemembered, hvis overlevet,Som frysende personer, husk den første sne, så Stupor så afladningen gå
Efter stor smerte kommer en formel følelse
Nerverne sidder ceremonielt, ligesom gravene
Det stive Hjerte spørger "var det Han, der bore,"
”I går eller århundreder før?”
Fødderne, mekanisk, gå rundt
En trævej
af jord, eller luft, eller bør
Uanset hvad man vokser op,
En kvarts tilfredshed, som en sten
Dette er ledelsens time
Husk, hvis du overlever,
Som frysende mennesker, husk sneen
Først chill så stupor så letting go
Platform |
Time To Generate |
Audio |
---|---|---|
ElevenLabs |
5s | |
Hume |
13s | |
iCendant Speech |
5s | |
Speechify |
3s |
Elefanter
5s
Hume
13s
Icendental tale
5s
taler
3s
Coaching er
Coaching er et hårdt område at få ret i betragtning af behovet for potentielt pludselige følelsesmæssige, hastighed og volumen overgange samtidig med at der tages hensyn til empati.
Volleyball Pep Talk - Genereret af Claude Sonnet 3.5
Hold, saml rundt.Tænk på dig selv. Disse hænder har tjent tusindvis af sæt.Disse ben har hoppet for utallige blokke.Disse lunger har strømmet gennem fem-sæt kampe, når du troede du ikke kunne fortsætte.Men volleyball spilles ikke med hænder eller ben eller lunger alene.Det spilles med hjerte.I dag, vi står over for den hårdeste modstander i vores sæson.De er højere.De er rangeret højere.Statistikkerne siger, at du ikke skal vinde.Men statistikkerne kan ikke måle holdarbejde.Husk, hvem vi er.Du er ikke bare seks personer på et hold - du er en enkelt enhed, der trækker vejret, bevæger sig, og kæmper som en.Når du træder på banen, bærer du hinandens dr
Holdet samles rundt.
Tænk på dig selv. Disse hænder har tjent tusindvis af sæt.
Disse ben har hoppet for utallige blokke.
Disse lunger har strømmet gennem fem sæt kampe, når du troede, at du ikke kunne fortsætte.
Men volleyball spilles ikke med hænder, ben eller lunger alene.
Det blev spillet med hjertet.
I dag står vi over for sæsonens hårdeste modstander.
De er højere.De er rangeret højere.
Statistikkerne siger, at du ikke skal vinde.
Men statistik kan ikke måle teamwork.
Husk hvem vi er.
Du er ikke bare seks personer på en domstol - du er en enkelt enhed, der trækker vejret, bevæger sig og kæmper som en.
Jeg har set dig vokse fra en gruppe talentfulde spillere til noget ekstraordinært.
I de øjeblikke, hvor træthed sætter ind, når tvivl kryber ind i dit sind, husk hvorfor du spiller.
Husk glæden ved et perfekt pass, tilfredsheden ved et rent dræb, den elektriske følelse, når du fejrer sammen.
Spil med passion. Spil med formål. Spil for hinanden.
Platform |
Time To Generate |
Audio |
---|---|---|
ElevenLabs |
5s | |
Hume |
20s | |
iCendant Speech |
4s | |
Speechify |
3s |
Elefanter
5s
Hume
20s
Icendental tale
4s
taler
3s
meditation
Meditation er et hårdt domæne at få ret i betragtning af behovet for kadens, tælling og glatte følelsesmæssige overgange.
Jeg foreslår, at mens du lytter til meditationer, fokuserer du på at trække vejret fra maven og lukke øjnene.
Åndedrætsmeditation - Genereret af Claude Sonnect v3.5
Vi vil gøre en beroligende øvelse, trække vejret dybt gennem næsen, hold, og udånd derefter gør en whooshing lyd.Inhalere liv 1... 2... Hold fred 1... 2... 3... Udånding spænding 1... 2... 3... 4... Gentag... Indånding... 1... 2... 3... 3... Hold... 1... 2... 3... 4... Udånding... 1... 2... 3... 5... Og endelig... Indånding... 1... 2... 3... 4... Hold... 1... 2... 3... 4... 5... Udånding... 1... 2... 3... 4... 5... 6... Må dit liv være fuld af fred.
Vi vil gøre en beroligende øvelse, trække vejret dybt gennem næsen, hold, og udånd derefter gør en whooshing lyd.Inhalere liv 1... 2... Hold fred 1... 2... 3... Udånding spænding 1... 2... 3... 4... Gentag... Indånding... 1... 2... 3... 3... Hold... 1... 2... 3... 4... Udånding... 1... 2... 3... 5... Og endelig... Indånding... 1... 2... 3... 4... Hold... 1... 2... 3... 4... 5... Udånding... 1... 2... 3... 4... 5... 6... Må dit liv være fuld af fred.
Platform |
Time To Generate |
Audio |
---|---|---|
ElevenLabs |
5s | |
Hume |
12- 20s | |
iCendant Speech |
5s | |
Speechify |
3s |
Elefanter
5s
Hume
12 - 20s
Icendental tale
5s
taler
3s
Omkostninger og andre oplysninger
Platform |
Cost (approximately 1,000 char per minute) |
SSML Available |
---|---|---|
ElevenLabs |
$0 to $1,300 per month including fixed usage |
No |
Hume |
$0 to $900 per month including capped usage with overage fees |
No |
iCendant Speech |
$0.008 per 1,000 chars + $10 per month |
No |
Speechify |
$0.001 per 1,000 chars |
Yes |
Google Neural |
$0.016 per 1,000 chars (not evaluated due to limited emotions in extended SSML) |
Yes |
Elefanter
$0 til $1.300 om måneden inklusive fast brug
2.000 til 22.000 minutter (20.000 til 222.000 kampvogne)
$0.016 til $0.012 pr. 1.000 kampvogne
Nej ikke
(begrænset brug af XML)
Hume
$ 0 til $ 900 pr. Måned inklusive begrænset brug med overaldergebyrer
10.000 til 10.000 tegn pr. måned
$0.20 til $0.10 pr. 1.000 chars overage
Nej ikke
Icendental tale
$0.008 pr. 1.000 tanks + $10 pr. måned
Nej ikke
taler
$ 0,001 pr. 1000 kampvogne
Ja til
(moderat følelsesmæssige udvidelser)
Google Neural
$0.016 pr. 1.000 tanks (ikke evalueret på grund af begrænsede følelser i udvidet SSML)
Ja til
(Meget begrænsede følelsesmæssige udvidelser)
Konklusionen
Hume virker forfærdeligt dyrt i forhold til de andre muligheder, især i betragtning af dens langsommere hastighed.
I sidste ende er det ikke klart, at nogen af platformene i øjeblikket kan håndtere alle behov, selvom jeg ser løfte på krydset af alle deres evner.
Offentliggørelse af interesse: Forfatteren er en delejer af iCendant Speech.
Offentliggørelse af interesse: Forfatteren er en delejer af iCendant Speech.
Offentliggørelse af interesse: Forfatteren er en delejer af iCendant Speech.