ファイルからテキストを抽出する
ファイルからテキストを抽出して文書の取り込みを高速化する
Squid の text extraction 機能を使用すると、ファイルの内容を簡単に処理でき、素早い情報のターンアラウンドが可能になります。コンプライアンス文書や earnings reports、scientific studies など、内容に基づいてレビューが必要なドキュメントや実施すべきアクションが多く存在します。
この情報の手動取り込みは時間がかかり、エラーが発生しやすいです。Squid を使用すれば、これまで数日かかっていた作業が数秒で完了します。
テキスト抽出を実行するには管理者権限が必要です。そのため、Squid API key にアクセスできる Squid backend やその他の安全なサーバー環境でのみ実行すべきです。
抽出クライアントの作成
文書からテキストを抽出するには、まず extraction()
メソッドを使用して抽出クライアントを作成します:
const extractionClient = this.squid.extraction();
テキストの抽出
抽出クライアントの extractDataFromDocumentFile
メソッドを使用して、ファイルからテキストを抽出します。このメソッドは、File
または BlobAndFileName
のいずれかの型を受け取ります。extractDataFromDocumentFile
メソッドは、pages
の配列に解決される promise を返します。各ページのテキストは text
属性を使用して取得できます。
以下の例は、BlobAndFileName
型を使用してテキストを抽出する方法を示しています:
const data = {
blob: dataBlob,
name: 'myDocument.pdf',
};
const extractedResult =
await extractionClient.extractDataFromDocumentFile(data);
console.log(extractedResult.pages[0].text); // 'Q4 Development Plan...'
Squid の抽出クライアントは強力な AI 処理を使用して、さまざまなファイル内容からテキストを抽出します。テキストファイルの読み取りをサポートするだけでなく、スキャンされた文書、テーブル、複数言語などからもテキストを抽出します。
抽出クライアントには、リモート URL にある文書からテキストを抽出する extractDataFromDocumentUrl
メソッドも用意されています。両方の抽出メソッドは、抽出する文書の pageIndexes
を指定するオプションとして options
パラメータを含むことができ、画像抽出に関するいくつかのオプションも提供します:
const extractedResult = await extractionClient.extractDataFromDocumentUrl(
'www.file-url.com',
{ pageIndexes: [0, 1, 2] }
);
次のステップ
テキストが抽出されたら、次を行うことができます:
- Squid の database connectors を使用してテキストを解析し、データベースに書き込みます。
- Squid AI Agent にクエリの一部としてテキストを渡し、テキストに基づいて質問に回答したり、アクションを実行させたりします。