292 lecturas

Speechify, ElevenLabs, Hume: ¿Qué voz de IA puede realmente sentir algo?

por Simon Y. Blackwell5m2025/05/08
Read on Terminal Reader

Demasiado Largo; Para Leer

El artículo investiga el rendimiento de varios motores de texto a habla en términos de velocidad y calidad al generar habla cargada emocionalmente.
featured image - Speechify, ElevenLabs, Hume: ¿Qué voz de IA puede realmente sentir algo?
Simon Y. Blackwell HackerNoon profile picture
0-item
1-item

He escrito un número deArtículos en Hackernoon sobre AI y empatíaEn este artículo voy más allá del enfoque orientado principalmente al texto que he adoptado en el pasado para abordar la salida de voz.


El artículo investiga el desempeño de varios motores de texto a habla (Eleven Labs, Hume, iCednant Speech, Speechify) en términos de velocidad y calidad generando voz cargada emocionalmente. Varias marcas importantes como Amazon, Google, Microsoft no fueron evaluadas porque ya sea sus plataformas hicieron acceso al complejo API o no ofrecieron matices emocionales directos, por ejemplo, SSML tuvo que ser utilizado (ver más abajo). Todos los motores evaluados son buenos para entradas de forma corta que convierten entradas desde una perspectiva de velocidad y calidad, es decir, sólo una frase en la que no hay mucha oportunidad de matices emocionales. Desde una perspectiva de calidad, todos ellos también son buenos para entradas de forma más larga donde el matiz emocional no puede ser crítico, por ejemplo, leer un documento de negocios. Aunque para una forma


El artículo no es muy largo debido a su enfoque en audio; por lo tanto, pasarás más tiempo escuchando que leyendo.También, a modo de divulgación, tengo un interés financiero en el éxito de algunas de las plataformas cubiertas, por lo que no voy a hacer ninguna comparación cualitativa.lectorel oyente para decidir qué motores funcionan mejor bajo qué escenarios. limitaré las comparaciones a valores cuantitativos como la velocidad y el coste.


Una nota sobre SSML ... Aunque SSML parece bastante poderoso en su cara, especialmente cuando se utiliza con el atributo de contorno que permite cambiar la frecuencia y el volumen a determinadas compensaciones de milisegundos, al final del día no se acerca a simular emociones humanas reales. La microprocedimiento requerida sólo puede ser combinada por procesadores neuronales. Sin embargo, algunos SSML hacen para una mejor gestión de pausas, volumen y pronunciaciones especiales.


También tenga en cuenta, iCendant se asocia con Speechify para mejorar sus capacidades. Speechify realmente brilla en el espacio de edición. Es relativamente nuevo al espacio de API en tiempo real y iCendant da una elevación a la plataforma Speechify.

Poesía

La poesía es un dominio difícil de conseguir dado su volumen, cadencia y emoción variables, junto con la dependencia de las brechas de línea y las estructuras gramaticales alternativas para el énfasis.


Después de un gran dolor - Emily Dickinson


Después de gran dolor, un sentimiento formal vieneLos nervios se sientan cerimoniosos, como las tumbasLos rígidos corazones preguntan: ¿Era Él, que borró?, Y 'Hace unos siglos, o siglos antes'?Los pies, mecánicos, van a la vueltaUn camino de maderaDe tierra, o aire, o OughtRegardless crecido,Un contentment de cuarzo, como una piedraEsta es la Hora de LeadRecordado, si sobrevivió,Como personas congeladoras, recuerde la NieveFirst Chill entonces Stupor entonces el dejar ir

Después de un gran dolor, viene un sentimiento formal
Los nervios se sienten cerimoniales, como las tumbas
El Corazón rígido pregunta: “¿Es Él, que borró?”
¿Hace años, o siglos antes?
Los pies, mecánicos, van redondos
Un camino de madera
De tierra, o aire, o debería
independientemente de su madurez,
Una satisfacción de cuarzo, como una piedra
Esta es la hora de la luz
Recuerda, si se sobrevive,
Como personas congeladas, recuerde la nieve
Primero Chill, luego Stupor, luego el Letting Go


Platform

Time To Generate

Audio

ElevenLabs

5s

🔊

Hume

13s

🔊

iCendant Speech

5s

🔊

Speechify

3s

🔊

Elefantes

5S

HUMO

13S

El discurso icónico

5S

Discurso

3s


Coaching

El coaching es un dominio difícil de conseguir dado que requiere de transiciones potencialmente abruptas emocionales, de velocidad y de volumen, al tiempo que también tiene en cuenta la empatía.


Volleyball Pep Talk - Generado por Claude Sonnet 3.5


Equipo, reúne.Considera a ti mismo. Aquellas manos han servido a miles de conjuntos.Estas piernas han saltado por innumerables bloques.Estos pulmones han alimentado a través de cinco conjuntos de partidos cuando pensabas que no podías seguir.Pero el voleibol no se juega con las manos o las piernas o los pulmones solo.Se juega con el corazón.Hoy, nos enfrentamos al oponente más duro de nuestra temporada.Son más altos.Están clasificados más alto.Las estadísticas dicen que no deberías ganar.Pero las estadísticas no pueden medir el trabajo en equipo.Recuerda quiénes somos.No eres sólo seis individuos en un campo - eres una única unidad que respira, se mueve y lucha como uno.Cuando salgas al campo, llevas los sueños

El equipo se reúne alrededor.
Piensa en ti mismo. esas manos han servido a miles de conjuntos.
Estas piernas han salido por innumerables bloques.
Aquellos pulmones se han alimentado a través de cinco partidos cuando pensaste que no podías seguir.
Pero el voleibol no se juega solo con las manos, las piernas o los pulmones.
Se juega con el corazón.
"Hoy enfrentamos al adversario más duro de la temporada.
Son más altos, se clasifican más alto.
Las estadísticas dicen que no hay que ganar.
Pero las estadísticas no pueden medir el trabajo en equipo.
Recuerda quiénes somos.
Usted no es sólo seis personas en una corte - usted es una única unidad que respira, se mueve y lucha como uno.
Te he visto crecer de un grupo de jugadores talentosos a algo extraordinario.
En aquellos momentos en que la fatiga se pone en marcha, cuando la duda crece en tu mente, recuerde por qué juegas.
Recuerda la alegría de un pase perfecto, la satisfacción de un matar limpio, la sensación eléctrica cuando celebramos juntos.
Jugar con pasión.Jugar con propósito.Jugar por el otro.


Platform

Time To Generate

Audio

ElevenLabs

5s

🔊

Hume

20s

🔊

iCendant Speech

4s

🔊

Speechify

3s

🔊

Elefantes

5S

HUMO

20s

El discurso icónico

4S

Discurso

3s


Meditación

La meditación es un dominio difícil de conseguir dado que necesita cadencia, cuenta y transiciones emocionales suaves.


Sugiero que mientras escuchas las meditaciones te enfoces en respirar desde tu vientre y cerrar los ojos.


Breathing Meditation - Generated by Claude Sonnect v3.5


Vamos a hacer un ejercicio de calma, respirar profundamente a través de su nariz, detener, luego exhalar haciendo un sonido que respira.Inhale vida 1... 2... 2... 3... Exhale tensión 1... 2... 3... 4... Repetir... Inhale... 1... 2... 3... 3... Mantenerse... 1... 2... 3... 4... Exhale... 1... 2... 3... 4... 5... Y finalmente... Inhale... 1... 2... 3... 4... Mantenerse... 1... 2... 3... 4... 5... Exhale... 1... 2... 3... 4... 5... 6... Que su vida sea llena de paz.Que sus tensiones sean tomadas por el viento que susurra en los árboles.

Vamos a hacer un ejercicio calmante, respirar profundamente a través de su nariz, sostener, y luego exhalar haciendo un sonido quioshing.
Inhale vida 1... 2...
Mantén la paz 1... 2... 3...
Tensión de exhalación 1 ... 2 ... 3 ... 4 ...
Repetir...
Inhale... 1... 2... 3...
1 ... 2 ... 3 ... 4 ...
1... 2... 3... 4... 5...
Y finalmente...
Inhale... 1... 2... 3... 4...
1... 2... 3... 4... 5...
Exhale... 1... 2... 3... 4... 5... 6...
Que tu vida esté llena de paz.
Que vuestras tensiones sean tomadas por el viento que susurra en los árboles.



Platform

Time To Generate

Audio

ElevenLabs

5s

🔊

Hume

12- 20s

🔊

iCendant Speech

5s

🔊

Speechify

3s

🔊

Elefantes

5S

HUMO

12 y 20

El discurso icónico

5S

Discurso

3s


Costes y otra información

Platform

Cost (approximately 1,000 char per minute)

SSML Available

ElevenLabs

$0 to $1,300 per month including fixed usage
2,000 to 22,000 minutes (20,000 to 222,000 chars)
$0.016 to $0.012 per 1,000 chars

No
(limited custom XML)

Hume

$0 to $900 per month including capped usage with overage fees
10,000 to 10,000,00 characters per month
$0.20 to $0.10 per 1,000 chars overage

No

iCendant Speech

$0.008 per 1,000 chars + $10 per month

No

Speechify

$0.001 per 1,000 chars

Yes
(moderate emotion extensions)

Google Neural

$0.016 per 1,000 chars (not evaluated due to limited emotions in extended SSML)

Yes
(very limited emotion extensions)

Elefantes

$0 a $1,300 por mes incluido el uso fijo
2,000 to 22,000 minutes (20,000 to 222,000 chars)
$0.016 a $0.012 por cada 1.000 tanques

No
(Extensión limitada de XML)

HUMO

$0 a $900 por mes incluido el uso limitado con tarifas de mayor edad
10.000 a 10.000 caracteres por mes
$0.20 a $0.10 por 1.000 carros de mayor edad

No

El discurso icónico

$0.008 por 1.000 carros + $10 por mes

No

Discurso

$0.001 por cada 1.000 tanques


(Extensión de las emociones moderadas)

Google Neural

$0.016 por 1.000 tanques (no evaluado debido a las emociones limitadas en el SSML extendido)


(Extensiones de emociones muy limitadas)

Conclusión

Hume parece terriblemente caro en comparación con las otras opciones, particularmente dada su velocidad más lenta.


En última instancia, no está claro cualquiera de las plataformas actualmente puede manejar todas las necesidades, aunque veo promesa en la intersección de todas sus capacidades.



Divulgación de intereses: el autor es propietario parcial de iCendant Speech.

Divulgación de intereses: el autor es propietario parcial de iCendant Speech.

Divulgación de intereses: el autor es propietario parcial de iCendant Speech.


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks