297 測定値

Speechify、ElevenLabs、Hume:どのAIの声が実際に何かを感じることができますか?

Simon Y. Blackwell5m2025/05/08
Read on Terminal Reader

長すぎる; 読むには

この記事は、感情的に充電されたスピーチを生成する際のスピードと品質の両方の点で、いくつかのテキスト対話エンジンのパフォーマンスを調査しています。
featured image - Speechify、ElevenLabs、Hume:どのAIの声が実際に何かを感じることができますか?
Simon Y. Blackwell HackerNoon profile picture
0-item
1-item

いくつか書きました♪「Hackernoon」に関する記事 AI and empathyこの記事では、私は声の出力に対処するために過去に取った主にテキスト指向のアプローチを超えています。


この記事では、いくつかのテキスト対話エンジンのパフォーマンス(Eleven Labs、Hume、iCednant Speech、Speechify)の両方の速度と品質の観点で感情的に充電されたスピーチを生成するヘンを調査します。Amazon、Google、Microsoftなどのいくつかの主要なブランドは、APIの複雑なアクセスを行ったプラットフォームまたは直接的な感情的なニュアンスを提供しなかったため、評価されていませんでした(以下を参照)。すべての評価されたエンジンは、スピードと品質の観点から短い形式の入力を変換するのに適しています、すなわち、感情的なニュアンスの機会がほとんどない一文だけです。品質の観点から、彼らはすべて、感情的なニュアンスの入力が重要ではない場合、


この記事は、オーディオに焦点を当てているため、あまり長くありませんので、読むよりも聴く時間を費やします。また、開示の方法で、私はカバーされているプラットフォームのいくつかの成功に財政的関心を持っていますので、私は質的な比較をするつもりはありません。読者どのシナリオでどのエンジンが最適かを決定するために、私は、速度やコストなどの定量的な値に比較を制限します。


SSMLについてのメモ ... SSMLはその顔にかなり強力に見えますが、特に、特定のミリ秒の補償で周波数とボリュームを変更することを可能にするコンチュート属性を使用すると、最終的にそれは実際の人間の感情をシミュレートするのに近づきません。


また、iCendantはSpeechifyと提携して能力を向上させています。Speechifyは編集スペースで本当に輝きます。リアルタイムのAPIスペースに比較的新しく、iCendantはSpeechifyプラットフォームにリフトを与えます。

詩人

詩は、さまざまなボリューム、キャデンス、感情、ラインの断ち切りに依存し、強調するための代替の文法構造に依存するため、正しいドメインです。


After A Great Pain - by Emily Dickinson


大きな痛みの後、形式的な感覚が来る 神経は儀式的に座る、墓のように 硬い心臓の質問は「それは彼だったか、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは

大きな痛みの後、形式的な感覚が来る 神経は儀式的に座る、墓のように 硬い心臓の質問は「それは彼だったか、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼は、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは、彼らは


Platform

Time To Generate

Audio

ElevenLabs

5s

🔊

Hume

13s

🔊

iCendant Speech

5s

🔊

Speechify

3s

🔊

エレベーター

5S

↓↓↓

HUME

13S

↓↓↓

iCendant スピーチ

5S

↓↓↓

スピーチ

3S

↓↓↓


コーチング

コーチングは、潜在的に急激な感情的、スピード、およびボリュームの移行が必要であることを考慮しながら、同情も考慮するために正しい領域です。


ボールボール Pep Talk - Generated by Claude Sonnet 3.5


これらの手は数千セットに仕え、これらの足は数え切れないブロックに飛び跳ね、これらの肺は5セットの試合を通してパワーを集め、あなたが続けられないと思ったが、ボールボールは手や足や肺だけでプレイされていない。それは心でプレイされている。今日、我々は我々のシーズンの最も厳しい相手に直面しています。彼らはより高い。彼らはより高くランクされています。統計はあなたが勝つべきではないと言います。しかし、統計はチームワークを測定することはできません。我々が誰であることを覚えておいてください。あなたはただの6人の人でない一つのフィールド - あなたは呼吸、動き、そして戦う1つの単位です。あなたがそのフィールドに踏み込むとき、あなたは、お互いの夢

チームが集まって
この手は、何千ものセットに仕えました。
その足は無数のブロックに飛び込んだ。
その肺は、あなたが続けることができないと思っていた5セットの試合を通してパワーを発揮しました。
しかし、ボールボールは手や足や肺だけでは遊ばない。
心で遊んだ。
今日、我々は今シーズンの最強の対戦相手に直面する。
彼らは高く、彼らは高くランクされています。
統計によると、勝てないといけない。
しかし、統計はチームワークを測ることができません。
私たちが誰であるかを思い出してください。
あなたは裁判所にいる6人だけではなく、呼吸し、動き、戦う1つのユニットです。
私はあなたが才能ある選手のグループから特別なものに成長するのを見た。
疲れが起こり、疑いがあなたの心に浮かぶとき、あなたがなぜ遊んでいるのかを思い出してください。
完璧なパスの喜び、清潔な殺しの満足、一緒に祝うときの電気の感覚を思い出してください。
情熱を持って遊ぶ、目的を持って遊ぶ、お互いのために遊ぶ。


Platform

Time To Generate

Audio

ElevenLabs

5s

🔊

Hume

20s

🔊

iCendant Speech

4s

🔊

Speechify

3s

🔊

エレベーター

5S

↓↓↓

HUME

20S

↓↓↓

iCendant スピーチ

4S

↓↓↓

スピーチ

3S

↓↓↓


瞑想

瞑想は、カデンス、数え方、およびスムーズな感情的移行の必要性があるので、正しいところを得るのは難しい領域です。


私は、瞑想に耳を傾けながら、あなたの腹から呼吸し、目を閉じることに焦点を当てることをお勧めします。


呼吸瞑想 - Generated by Claude Sonnect v3.5


息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を吐き、息を

私たちは、落ち着いた運動を行い、鼻を通して深く息を吸い、握り、その後、ウォーシングの音を作って呼吸します。
人生1...2...
平和を守れ 1... 2... 3...
緊張感 1... 2... 3... 4...
繰り返し...
インフルエンザ... 1... 2... 3...
1...2...3...4...
1...2...3...4...5...
そしてついに...
1...2...3...4...
1...2...3...4...5...
1...2...3...4...5...6...
あなたの人生が平和に満ち溢れるように。
あなたの緊張は、木々の中で風がささやくことによって奪われますように。



Platform

Time To Generate

Audio

ElevenLabs

5s

🔊

Hume

12- 20s

🔊

iCendant Speech

5s

🔊

Speechify

3s

🔊

エレベーター

5S

↓↓↓

HUME

12 - 20s

↓↓↓

iCendant スピーチ

5S

↓↓↓

スピーチ

3S

↓↓↓


コストとその他の情報

Platform

Cost (approximately 1,000 char per minute)

SSML Available

ElevenLabs

$0 to $1,300 per month including fixed usage
2,000 to 22,000 minutes (20,000 to 222,000 chars)
$0.016 to $0.012 per 1,000 chars

No
(limited custom XML)

Hume

$0 to $900 per month including capped usage with overage fees
10,000 to 10,000,00 characters per month
$0.20 to $0.10 per 1,000 chars overage

No

iCendant Speech

$0.008 per 1,000 chars + $10 per month

No

Speechify

$0.001 per 1,000 chars

Yes
(moderate emotion extensions)

Google Neural

$0.016 per 1,000 chars (not evaluated due to limited emotions in extended SSML)

Yes
(very limited emotion extensions)

エレベーター

$0 to $1,300 per month including fixed usage (固定使用を含む)
2,000 ~ 22,000 分 (20,000 ~ 222,000 戦車)
$0.016 to $0.012 per 1,000 戦車

ノー
(限定XML)

Hume

$0 から $900 まで 1 か月で、超年齢料金の制限付き使用を含む
毎月1万〜1万文字
$0.20 to $0.10 per 1,000 chars overage

ノー

iCendant スピーチ

$0.008 per 1,000 chars + $10 per month

ノー

スピーチ

タンカー1000台あたり0.001ドル

はい
(中等感覚の拡張)

Google ニューラル

1千戦車あたり0.016ドル(拡張SSMLでの感情の制限により評価されていない)

はい
(非常に限られた感情の拡張)

結論

Humeは他のオプションと比べて恐ろしく高価に見えます、特に速度が遅いので。


結局のところ、どのプラットフォームも現在すべてのニーズに対応できることは明らかではありませんが、私はすべての能力の交差点で約束を見ています。



Vested interest disclosure: The author is a part owner of iCendant Speech. 著者はiCendant Speechの一部所有者です。

Vested interest disclosure: The author is a part owner of iCendant Speech. 著者はiCendant Speechの一部所有者です。

Vested interest disclosure: The author is a part owner of iCendant Speech. 著者はiCendant Speechの一部所有者です。


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks