ボイスメール文字起こしとは?その便利な理由
ボイスメール文字起こしは、音声メッセージを読みやすいテキストに変換します。会議中に再生して耳に当てる代わりに、数秒でメッセージを読めます。個人のボイスメール、業務連絡、電話に録音されたあらゆる音声に対応。
スマホの内蔵ボイスメール文字起こしは必ずしも正確ではなく、そもそも機能がない場合もあります。
iPhoneのビジュアルボイスメールは端末内蔵の音声モデルを使用しており、アクセントや背景ノイズ、途切れがちな話者では精度が急激に低下します。Google Voiceの文字起こしは機能しますが、Google Voiceユーザー限定です。多くの通信事業者、特にプリペイドプランやMint Mobile、CricketなどのMVNOでは、ボイスメールからテキストへの変換サービスを提供していません。
当ツールは68万時間の音声データで訓練されたWhisper v3 Turboを使用。電話品質の音声にも強く、訓練データに通話音声が含まれているため、一般的なスマホ内蔵システムより正確な文字起こしが可能です。
ボイスメールをテキストに文字起こしする方法
ボイスメールを音声ファイルとしてスマホに保存。ほとんどのスマホで共有/エクスポート可能です。そのファイルを当ツールにアップロード。AIが数秒でメッセージを文字起こし。テキストをコピーするかTXTでダウンロードできます。
ほとんどのボイスメールはM4A(iPhone)、AMR(Android)、またはMP3(VoIPシステム)形式で保存されます。当ツールはこれら全ての形式をサポートしています。
- 1
iPhone:ボイスメールをエクスポート
電話アプリを開きます。下部のボイスメールタブをタップします。目的のボイスメールを選択します。共有ボタン(矢印付き四角)をタップします。「ファイルに保存」を選択しフォルダを指定します。Safariで当ツールを開き保存したファイルをアップロードします。
- 2
Android:ボイスメールをエクスポート
電話アプリを開きます。ボイスメールに移動します。ボイスメールの3点メニューをタップします。共有を選択し音声ファイルを保存します。当ツールにアップロードします。
- 3
Google Voice / VoIP
Google Voiceアプリまたはウェブサイトを開きます。ボイスメールを探します。音声ファイルをダウンロードしアップロードします。ビジネスVoIPシステム(RingCentral、Vonage、Grasshopper)では通常、ボイスメールがMP3またはWAV添付ファイルとしてメール送信されます。
ボイスメールの音声形式について
ボイスメールは、ほとんどのAndroid電話ではAMR、iPhoneではM4A、RingCentralやVonage、GrasshopperなどのビジネスVoIPシステムではMP3またはWAV形式で保存されます。当ツールは変換不要でこれら全ての形式を受け付けます。
多くの文字起こしツールはこの説明を省略するため、ユーザーがボイスメールをアップロードしようとした際に形式が分からず混乱することがあります。
- AMR(Adaptive Multi-Rate)。携帯ネットワーク向け標準音声コーデック。4.75~12.2kbpsで動作。ファイルサイズは小さいが非可逆圧縮。Whisperは同ビットレートの電話品質音声で学習されているためAMRを適切に処理できます。
- M4A(AACコーデック)。iPhoneで共有ボタンからボイスメールをエクスポートした際に生成されます。AMRより高音質で通常128kbps程度。
- MP3とWAV。ビジネス電話システムではボイスメールがこれらの標準形式でメール添付されることが多い。直接アップロード可能です。
VoIPプロバイダー(RingCentral、Dialpad、Vonage、8x8、Grasshopper)がボイスメールをメール送信する場合、添付ファイルは通常MP3またはWAV形式です。ダウンロードしてそのままアップロードできます。追加作業は不要です。
AIボイスメール文字起こしの精度は?
精度は80%から95%の範囲です。携帯電話ネットワーク経由で録音されたボイスメールは、固定電話やVoIP録音よりも音質が低く、AIが単語を識別する能力に影響を与えます。静かな環境で録音された明確なメッセージが最も正確に文字起こしされます。
ほとんどのツールが言及しない、ボイスメールの精度に特に関連するいくつかの点:
- 携帯電話のボイスメールはAMRナローバンドを使用して約8kbpsに音声を圧縮します。これはポッドキャスト録音が使用する帯域の一部です。高周波数の子音(「s」、「f」、「th」など)が削除されるため、AIが一部の単語を認識しづらくなります。
- 固定電話や16kbps以上のVoIPボイスメールは、明らかに精度の高い文字起こしを生成します。業務でVoIPシステムを使用している場合、そのシステムからのボイスメールは携帯電話のボイスメールよりも正確に文字起こしされます。
- 話し手の癖も影響します。運転中、歩きながら、または風の強い状況でボイスメールを残す人は、どの文字起こしシステムにとっても難しい音声を生成します。文の終わりで声が小さくなったり、電話番号をぼそぼそ話す人はよくある問題です。
これらの課題にもかかわらず、Whisperはスタジオ録音とともに電話品質の音声でトレーニングされています。低ビットレートの音声を、ほとんどの消費者向け文字起こしツールよりも優れて処理します。
私のボイスメール内容はプライベートに保たれますか?
はい。すべてのボイスメールアップロードはHTTPSで暗号化され、メモリ内のみで処理され、文字起こし完了後すぐに削除されます。音声は保存されません。文字起こし文も保存されません。アカウントや個人データは不要です。GDPR準拠です。
ボイスメールには機密情報が含まれることがよくあります。医療予約の詳細、ビジネス交渉、個人的なメッセージ、金融口座番号など。当社の処理パイプラインは、すべてのアップロードをデフォルトで機密として扱います。文字起こし文がブラウザに届いた後は何も保持されません。