メインコンテンツまでスキップ

ファイルからテキストを抽出

処理のためにファイルからテキストを抽出することでドキュメント取り込みを高速化

Squidのtext extraction機能を使用すると、情報の迅速な取り扱いのためにファイルの内容を簡単に処理できます。コンプライアンス文書、earnings reports、scientific studiesなど、内容に基づいて確認および処理が必要なさまざまな種類のドキュメントがあります。

この情報の手動取り込みは時間がかかり、ミスが発生しやすいです。Squidを使用すると、これまで数日かかっていたタスクが数秒で完了します。

Note

テキスト抽出にはadmin privilegesが必要なため、Squid API keyにアクセスできるSquidバックエンドやその他のサーバー環境などの安全な環境でのみ実施する必要があります。

抽出クライアントの作成

ドキュメントからテキスト抽出を行うには、まずextraction()メソッドを使用して抽出クライアントを作成します:

Backend code
const extractionClient = this.squid.extraction();

テキストの抽出

抽出クライアントのextractDataFromDocumentFileメソッドを使用して、ファイルからテキストを抽出します。このメソッドはFile または BlobAndFileNameのいずれかのタイプを受け取ります。extractDataFromDocumentFileメソッドは、pagesの配列に解決するpromiseを返します。特定のページのテキストは、text属性を使用してアクセスできます。

以下の例は、BlobAndFileNameタイプを使用してテキストを抽出する方法を示しています:

Backend code
const data = {
blob: dataBlob,
name: 'myDocument.pdf',
};

const extractedResult =
await extractionClient.extractDataFromDocumentFile(data);
console.log(extractedResult.pages[0].text); // 'Q4 Development Plan...'
どのような内容が抽出されるか?

Squidの抽出クライアントは、強力なAI処理を使用して、さまざまなファイル内容からテキストを抽出します。テキストファイルの読み取りをサポートするだけでなく、スキャンされたドキュメント、テーブル、複数の言語などからもテキストを抽出します。

抽出クライアントには、リモートURL上のドキュメントからテキストを抽出するための追加のextractDataFromDocumentUrlメソッドがあります。両方の抽出メソッドには、抽出するドキュメントのpageIndexesやイメージ抽出のためのいくつかのオプションを指定できるoptionsパラメータがオプションで含まれています:

Backend code
const extractedResult = await extractionClient.extractDataFromDocumentUrl(
'www.file-url.com',
{ pageIndexes: [0, 1, 2] }
);

次のステップ

テキストが抽出されたら、次のことができます:

  • Squidの database connectors を使用してテキストを解析し、データベースに書き込みます。
  • テキストを一部として Squid AI Agent へのクエリに渡し、そのテキストに基づいて質問に回答したり、アクションを実行したりします。