メインコンテンツまでスキップ

音声の文字起こしと生成

音声ファイルの話し言葉を文字起こしし、AI 生成音声を使って音声を作成します

ユースケース

  • 新しい音声ファイルがアップロードされたときに自動的に文字起こしをトリガーする。
  • Squid AI Agent を使用して文字起こしを保存・要約する。
  • AI agent のための音声ペルソナを作成する。

文字起こしを実行する

ファイルを文字起こしするには、Squid Client SDK を使用します。

Note

Squid AI Audio クライアントは、Squid リソースへの admin access が必要です。Squid backend のように Squid API key を安全に提供できるセキュアな環境でのみ使用してください。

ファイルを文字起こしするには、Squid AI Audio の transcribe() メソッドを使用し、音声ファイルデータを渡します。

Backend code
const fileName = 'myAudioFile.mp3';

const audioBlobAndFilename = {
audioBlob, // provide your audio as a Blob
fileName,
};
const transcription = await squid.ai().audio().transcribe(audioBlobAndFilename, {
modelName: 'whisper-1',
});

transcribe() メソッドは、文字起こしをカスタマイズするための任意の options パラメータも受け取ります。詳細は リファレンスドキュメント を参照してください。

音声ファイルを作成する

AI 生成の音声ファイルを作成するには、Squid AI Audio の createSpeech() メソッドを使用します。このメソッドは input 文字列と options パラメータを受け取り、options は音声ファイルをカスタマイズするために使用されます。このメソッドは、生成された音声ファイルに解決される promise を返します。

Backend code
const audioFile = await squid.ai().audio().createSpeech(
'Say hello to all users like a pirate would say hello.',
{ modelName: 'tts-1' },
);