メインコンテンツまでスキップ

ファイルからテキストを抽出する

処理のためにファイルからテキストを抽出して、ドキュメント取り込みを高速化

Squid のテキスト抽出機能を使うと、ファイルの内容を簡単に処理でき、情報の迅速な把握が可能になります。コンプライアンス文書、決算報告書、科学研究など、レビューが必要で、その内容に基づいてアクションを取らなければならないドキュメントは数多く存在します。

これらの情報を手作業で取り込むのは時間がかかり、ミスも起きやすくなります。Squid を使えば、これまで数日かかっていた作業が数秒で完了します。

Note

テキスト抽出には admin 権限が必要なため、Squid backend やその他のサーバー環境など、Squid API key にアクセスできる安全な環境でのみ実行してください。

抽出クライアントを作成する

ドキュメントに対してテキスト抽出を行うには、まず extraction() メソッドを使って抽出クライアントを作成します。

Backend code
const extractionClient = this.squid.extraction();

テキストを抽出する

抽出クライアントの extractDataFromDocumentFile メソッドを使用して、ファイルからテキストを抽出します。このメソッドは File または BlobAndFileName のいずれかの型を受け取ります。extractDataFromDocumentFile メソッドは、pages の配列に解決される promise を返します。特定ページのテキストは text 属性で参照できます。

次の例は、BlobAndFileName 型を使ってテキストを抽出する例です。

Backend code
const data = {
blob: dataBlob,
name: 'myDocument.pdf',
};

const extractedResult =
await extractionClient.extractDataFromDocumentFile(data);
console.log(extractedResult.pages[0].text); // 'Q4 Development Plan...'
どのような内容が抽出されますか?

Squid の extraction client は強力な AI 処理により、さまざまなファイル内容からテキストを抽出します。テキストファイルの読み取りに対応するだけでなく、スキャンされたドキュメント、表、複数言語などからもテキストを抽出します。

抽出クライアントには追加で extractDataFromDocumentUrl メソッドがあり、リモート URL 上のドキュメントからテキストを抽出します。どちらの抽出メソッドも、任意で options パラメータを受け取り、抽出対象のドキュメントの pageIndexes を指定できるほか、画像抽出に関するいくつかのオプションも指定できます。

Backend code
const extractedResult = await extractionClient.extractDataFromDocumentUrl(
'www.file-url.com',
{ pageIndexes: [0, 1, 2] }
);

次のステップ

テキストを抽出したら、次のことができます。

  • テキストを解析し、Squid の database connectors を使ってデータベースに書き込む。
  • テキストをクエリの一部として Squid AI Agent に渡し、テキストに基づいて質問に回答させたり、アクションを実行させたりする。