音声の文字起こしと生成
音声ファイルの話し言葉を文字起こしし、AI 生成音声を使って音声を作成します
ユースケース
- 新しい音声ファイルがアップロードされたときに自動的に文字起こしをトリガーする。
- Squid AI Agent を使用して文字起こしを保存・要約する。
- AI agent のための音声ペルソナを作成する。
文字起こしを実行する
ファイルを文字起こしするには、Squid Client SDK を使用します。
Note
Squid AI Audio クライアントは、Squid リソースへの admin access が必要です。Squid backend のように Squid API key を安全に提供できるセキュアな環境でのみ使用してください。
ファイルを文字起こしするには、Squid AI Audio の transcribe() メソッドを使用し、音声ファイルデータを渡します。
- TypeScript
- Python
Backend code
const fileName = 'myAudioFile.mp3';
const audioBlobAndFilename = {
audioBlob, // provide your audio as a Blob
fileName,
};
const transcription = await squid.ai().audio().transcribe(audioBlobAndFilename, {
modelName: 'whisper-1',
});
Backend code
transcription = await squid.ai().audio().transcribe(
audio_data, # provide your audio as bytes
'myAudioFile.mp3',
'audio/mpeg',
options={'modelName': 'whisper-1'},
)
transcribe() メソッドは、文字起こしをカスタマイズするための任意の options パラメータも受け取ります。詳細は リファレンスドキュメント を参照してください。
音声ファイルを作成する
AI 生成の音声ファイルを作成するには、Squid AI Audio の createSpeech() メソッドを使用します。このメソッドは input 文字列と options パラメータを受け取り、options は音声ファイルをカスタマイズするために使用されます。このメソッドは、生成された音声ファイルに解決される promise を返します。
- TypeScript
- Python
Backend code
const audioFile = await squid.ai().audio().createSpeech(
'Say hello to all users like a pirate would say hello.',
{ modelName: 'tts-1' },
);
Backend code
audio_file = await squid.ai().audio().create_speech(
'Say hello to all users like a pirate would say hello.',
{'modelName': 'tts-1'},
)