メインコンテンツまでスキップ

オーディオの文字起こしと生成

オーディオファイルから話された言語を文字起こしし、AI生成された音声を使って音声を作成する

ユースケース

  • 新しいオーディオファイルがアップロードされたときに、文字起こしを自動的に開始します。
  • 文字起こしを保存および要約するために、Squid AI Agent を使用します。
  • AIエージェントのために音声のパーソナを作成します。

文字起こしを実行する

ファイルを文字起こしするには、Squid Client SDK を使用します。

Note

Squid AI Audio クライアントは、Squid リソースに対する管理者アクセスを必要とします。これは、Squid backend のような、Squid API キーを安全に提供できる安全な環境でのみ使用すべきです。

ファイルを文字起こしするには、Squid AI Audio の transcribe() メソッドを使用し、オブジェクトとして音声 Blob とファイル名を渡します:

Backend code
const fileName = 'myAudioFile.mp3';

const audioBlobAndFilename = {
audioBlob, // provide your audio as a Blob
fileName,
};
const transcription = await squid.ai().audio().transcribe(audioBlobAndFilename);

transcribe() メソッドは、文字起こしをカスタマイズするためのオプションの options パラメーターも受け付けます。詳細については、reference documentation をご確認ください。

音声ファイルの作成

AI生成された音声ファイルを作成するには、Squid AI Audio の createSpeech() メソッドを使用します。このメソッドは、input という文字列と音声ファイルをカスタマイズするための options パラメーターを受け取ります。メソッドは、生成された音声ファイルに解決されるプロミスを返します。

Backend code
const audioFile = await squid
.ai()
.audio()
.createSpeech('Say hello to all users like a pirate would say hello.', {
modelName: 'tts-1',
});