나는 몇 가지를 썼다AI와 공감에 관한 Hackernoon에 대한 기사이 문서에서 나는 과거에 음성 출력을 다루기 위해 주로 텍스트 지향 접근 방식을 뛰어 넘는다.나는 또한 감정 표현의 더 넓은 공간으로 공감을 넘어갑니다.
이 논문은 몇 가지 텍스트-to-언어 엔진 (Eleven Labs, Hume, iCednant Speech, Speechify)의 성능을 감정적으로 충전 된 언어를 생성하는 속도와 품질의 측면에서 조사합니다. 아마존, 구글, 마이크로소프트와 같은 여러 주요 브랜드는 API 복잡성에 액세스하거나 직접적인 감정적 인 뉘앙스를 제공하지 않았기 때문에 평가되지 않았습니다. 예를 들어, SSML은 사용해야했습니다 (아래 참조). 모든 평가된 엔진은 속도와 품질의 관점에서 짧은 형태의 입력 변환에 적합합니다. 즉 감정적 인 뉘앙스를위한 기회가 많지 않은 한 문구입니다. 품질의 관점에서 그들은 모두 감정적 인 뉘앙스가 비
이 기사는 오디오에 초점을 맞추기 때문에 매우 길지 않다; 따라서, 당신은 당신이 읽는 것보다 더 많은 시간을 들을 것입니다.또한, 공개 방법으로, 나는 다루는 플랫폼 중 일부의 성공에 재정적 인 관심이 있으므로 나는 어떤 질적 비교를하지 않을 것입니다.읽기어떤 시나리오에서 어떤 엔진이 가장 잘 작동하는지 결정할 수 있도록 청취자.나는 속도와 비용과 같은 양적 값으로 비교를 제한할 것입니다.
A note about SSML … Although SSML appears quite powerful on its face, particularly when used with the contour attribute that allows for changing frequency and volume at specific millisecond offsets, at the end of the day it does not come close to simuating real human emotion. The micro prosody required can only be matched by neural processors. However, some SSML does make for better management of pauses, volume and special pronunciations.
또한, iCendant는 Speechify와 파트너십을 맺어 그들의 기능을 향상시킵니다. Speechify는 편집 공간에서 정말로 빛납니다. 그것은 실시간 API 공간과 상대적으로 새롭고 iCendant는 Speechify 플랫폼에 리프팅을 제공합니다.
詩
詩는 다양한 볼륨, 경도 및 감정과 함께 강조를위한 라인 휴식 및 대체 문법 구조에 대한 의존성과 함께 올바른 도메인입니다.
After A Great Pain - 에밀리 디킨슨
큰 고통 후, 형식적 인 느낌이옵니다The Nerves sit ceremonial, like TombsThe stiff Heart questions 'was it He, that bored,'And 'Yesterday, or Centuries before'?The Feet, mechanical, go aroundA Wooden wayOf Ground, or Air, or OughtRegardless grown,A Quartz contentment, like a stoneThis is the Hour of Lead(그것은 돌처럼 쿼츠 만족, 이것은 리드의 시간이다)
큰 고통 후, 형식적 인 느낌이옵니다The Nerves sit ceremonial, like TombsThe stiff Heart questions 'was it He, that bored,'And 'Yesterday, or Centuries before'?The Feet, mechanical, go aroundA Wooden wayOf Ground, or Air, or OughtRegardless grown,A Quartz contentment, like a stoneThis is the Hour of Lead(그것은 돌처럼 쿼츠 만족, 이것은 리드의 시간이다)
Platform |
Time To Generate |
Audio |
---|---|---|
ElevenLabs |
5s | |
Hume |
13s | |
iCendant Speech |
5s | |
Speechify |
3s |
엘리베이터
5S
HUME
13S
iCendant 연설
5S
연설
3S
코칭
코칭은 잠재적으로 갑작스러운 정서적, 속도 및 볼륨 전환이 필요하므로 공감도 고려하는 어려운 영역입니다.
Volleyball Pep Talk - Claude Sonnet에 의해 생성 3.5
그 손은 수천 세트를 제공했다.이 다리는 수많은 블록을 점프했다.이 폐는 당신이 계속할 수 없다고 생각했을 때 다섯 세트 경기를 통해 전력을했다.그러나 볼리볼은 손이나 다리 또는 폐로만 재생되지 않습니다.그것은 심장으로 재생됩니다.오늘, 우리는 우리의 시즌의 가장 어려운 상대를 직면하고 있습니다.그들은 더 높습니다.그들은 상대방의 꿈을 가지고있다. 통계는 당신이 이길 수 없다고 말합니다.그러나 통계는 팀워크를 측정 할 수 없습니다.우리가 누구인지 기억하십시오.당신은 단지 여섯 명의 사람들이다 - 당신은 심장 - 당신이 숨 쉬고, 움직이고, 그리고 싸우는 하나입니다.당신이 경기장에 올 때, 당신은
그 손은 수천 세트를 제공했다.이 다리는 수많은 블록을 점프했다.이 폐는 당신이 계속할 수 없다고 생각했을 때 다섯 세트 경기를 통해 전력을했다.그러나 볼리볼은 손이나 다리 또는 폐로만 재생되지 않습니다.그것은 심장으로 재생됩니다.오늘, 우리는 우리의 시즌의 가장 어려운 상대를 직면하고 있습니다.그들은 더 높습니다.그들은 상대방의 꿈을 가지고있다. 통계는 당신이 이길 수 없다고 말합니다.그러나 통계는 팀워크를 측정 할 수 없습니다.우리가 누구인지 기억하십시오.당신은 단지 여섯 명의 사람들이다 - 당신은 심장 - 당신이 숨 쉬고, 움직이고, 그리고 싸우는 하나입니다.당신이 경기장에 올 때, 당신은
Platform |
Time To Generate |
Audio |
---|---|---|
ElevenLabs |
5s | |
Hume |
20s | |
iCendant Speech |
4s | |
Speechify |
3s |
엘리베이터
5S
HUME
20S
iCendant 연설
4S
연설
3S
명상
명상은 경계, 계산 및 부드러운 감정적 인 전환의 필요성을 고려하여 올바르게 얻는 어려운 영역입니다.
나는 명상에 귀를 기울이는 동안 당신이 당신의 뱃속에서 호흡하고 눈을 감는 것에 집중하는 것이 좋습니다.
호흡 명상 - Claude Sonnect v3.5에 의해 생성
우리는 진정 연습을 할 것입니다, 당신의 코를 통해 깊이 숨을 쉬고, 잡아, 그 다음 호흡하는 소리를 만드는.Inhale life 1... 2... 2... 3... Exhale tension 1... 2... 3... 4...Repeat...Inhale... 1... 2... 3... 3...Hold... 1... 2... 3... 4...Exhale... 1... 2... 3... 4... 5...And finally...Inhale... 1... 2... 3... 4...Hold... 1... 2... 3... 4... 5...Exhale... 1... 2... 3... 4... 5... 6...May your life be full of peace.May your tensions be taken by the wind whispering in the trees.
우리는 진정 연습을 할 것입니다, 당신의 코를 통해 깊이 숨을 쉬고, 잡아, 그 다음 호흡하는 소리를 만드는.Inhale life 1... 2... 2... 3... Exhale tension 1... 2... 3... 4...Repeat...Inhale... 1... 2... 3... 3...Hold... 1... 2... 3... 4...Exhale... 1... 2... 3... 4... 5...And finally...Inhale... 1... 2... 3... 4...Hold... 1... 2... 3... 4... 5...Exhale... 1... 2... 3... 4... 5... 6...May your life be full of peace.May your tensions be taken by the wind whispering in the trees.
Platform |
Time To Generate |
Audio |
---|---|---|
ElevenLabs |
5s | |
Hume |
12- 20s | |
iCendant Speech |
5s | |
Speechify |
3s |
엘리베이터
5S
HUME
12 - 20s
iCendant 연설
5S
연설
3S
비용 및 기타 정보
Platform |
Cost (approximately 1,000 char per minute) |
SSML Available |
---|---|---|
ElevenLabs |
$0 to $1,300 per month including fixed usage |
No |
Hume |
$0 to $900 per month including capped usage with overage fees |
No |
iCendant Speech |
$0.008 per 1,000 chars + $10 per month |
No |
Speechify |
$0.001 per 1,000 chars |
Yes |
Google Neural |
$0.016 per 1,000 chars (not evaluated due to limited emotions in extended SSML) |
Yes |
엘리베이터
$0 ~ $1,300 매월 고정 사용을 포함하여
2,000 ~ 22,000 분 (20,000 ~ 222,000 탱크)
$0.016 ~ $0.012 1,000 탱크 당
아니오
(제한된 사용자 정의 XML)
HUME
$ 0 ~ $ 900 매월, 연령대 수수료와 제한된 사용 포함
10,000 ~ 10,000.00 캐릭터 매월
$0.20 to $0.10 per 1,000 탱크 overage
아니오
iCendant 연설
1,000 탱크당 $0.008 + 월당 $10
아니오
연설
$0.001 1,000 탱크 당
예
(중요한 감정 확장)
Google 신경
1,000 대의 탱크 당 $0.016 (장장된 SSML에서 감정이 제한되기 때문에 평가되지 않음)
예
(매우 제한된 감정 확장)
결론
Hume은 특히 느린 속도를 감안할 때 다른 옵션에 비해 끔찍하게 비니다.
궁극적으로 플랫폼 중 어느 것도 현재 모든 요구를 처리 할 수있는 것이 분명하지는 않지만 모든 능력의 교차점에서 약속을 볼 수 있습니다.
Vested interest disclosure: 저자는 iCendant Speech의 일부 소유자입니다.
Vested interest disclosure: 저자는 iCendant Speech의 일부 소유자입니다.
Vested interest disclosure: 저자는 iCendant Speech의 일부 소유자입니다.