メインコンテンツまでスキップ

ファイルからテキストを抽出する

ファイルからテキストを抽出して文書の取り込みを高速化する

Squid の text extraction 機能を使用すると、ファイルの内容を簡単に処理でき、素早い情報のターンアラウンドが可能になります。コンプライアンス文書や earnings reports、scientific studies など、内容に基づいてレビューが必要なドキュメントや実施すべきアクションが多く存在します。

この情報の手動取り込みは時間がかかり、エラーが発生しやすいです。Squid を使用すれば、これまで数日かかっていた作業が数秒で完了します。

Note

テキスト抽出を実行するには管理者権限が必要です。そのため、Squid API key にアクセスできる Squid backend やその他の安全なサーバー環境でのみ実行すべきです。

抽出クライアントの作成

文書からテキストを抽出するには、まず extraction() メソッドを使用して抽出クライアントを作成します:

Backend code
const extractionClient = this.squid.extraction();

テキストの抽出

抽出クライアントの extractDataFromDocumentFile メソッドを使用して、ファイルからテキストを抽出します。このメソッドは、File または BlobAndFileName のいずれかの型を受け取ります。extractDataFromDocumentFile メソッドは、pages の配列に解決される promise を返します。各ページのテキストは text 属性を使用して取得できます。

以下の例は、BlobAndFileName 型を使用してテキストを抽出する方法を示しています:

Backend code
const data = {
blob: dataBlob,
name: 'myDocument.pdf',
};

const extractedResult =
await extractionClient.extractDataFromDocumentFile(data);
console.log(extractedResult.pages[0].text); // 'Q4 Development Plan...'
どの内容が抽出される?

Squid の抽出クライアントは強力な AI 処理を使用して、さまざまなファイル内容からテキストを抽出します。テキストファイルの読み取りをサポートするだけでなく、スキャンされた文書、テーブル、複数言語などからもテキストを抽出します。

抽出クライアントには、リモート URL にある文書からテキストを抽出する extractDataFromDocumentUrl メソッドも用意されています。両方の抽出メソッドは、抽出する文書の pageIndexes を指定するオプションとして options パラメータを含むことができ、画像抽出に関するいくつかのオプションも提供します:

Backend code
const extractedResult = await extractionClient.extractDataFromDocumentUrl(
'www.file-url.com',
{ pageIndexes: [0, 1, 2] }
);

次のステップ

テキストが抽出されたら、次を行うことができます:

  • Squid の database connectors を使用してテキストを解析し、データベースに書き込みます。
  • Squid AI Agent にクエリの一部としてテキストを渡し、テキストに基づいて質問に回答したり、アクションを実行させたりします。