ファイルからテキストを抽出する
処理のためにファイルからテキストを抽出してドキュメント取り込みを高速化
Squid のテキスト抽出機能を使うことで、ファイルの内容を簡単に処理し、情報の取得を迅速に行えます。コンプライアンス文書、決算報告書、科学研究など、内容のレビューが必要で、その内容に基づいてアクションを取らなければならないドキュメントは多岐にわたります。
これらの情報を手作業で取り込むのは時間がかかり、ミスも起こりやすくなります。Squid を使えば、これまで数日かかっていた作業が数秒で完了します。
テキスト抽出には admin 権限が必要なため、Squid backend など Squid API key へアクセスできる安全な環境(サーバー環境など)でのみ実行してください。
抽出クライアントを作成する
ドキュメントに対してテキスト抽出を行うには、まず extraction() メソッドを使って抽出クライアントを作成します。
- TypeScript
- Python
const extractionClient = this.squid.extraction();
extraction_client = self.squid.extraction()
テキストを抽出する
抽出クライアントの extractDataFromDocumentFile メソッドを使って、ファイルからテキストを抽出します。このメソッドは File または BlobAndFileName のいずれかの型を受け取ります。extractDataFromDocumentFile メソッドは、pages の配列に解決される promise を返します。特定ページのテキストは content 属性で参照できます。
次の例は、ファイルからテキストを抽出する例です。
- TypeScript
- Python
const data = {
blob: dataBlob,
name: 'myDocument.pdf',
};
const extractedResult = await extractionClient.extractDataFromDocumentFile(data);
console.log(extractedResult.pages[0].content); // 'Q4 Development Plan...'
extracted_result = await extraction_client.extract_data_from_document_file(
file_data, # document content as bytes
'myDocument.pdf',
)
print(extracted_result['pages'][0]['content']) # 'Q4 Development Plan...'
Squid の抽出クライアントは強力な AI 処理を用いて、さまざまなファイル内容からテキストを抽出します。テキストファイルの読み取りをサポートするだけでなく、スキャンされたドキュメント、表(tables)、複数言語などからもテキストを抽出します。
抽出クライアントには、リモート URL 上のドキュメントからテキストを抽出するための追加メソッドもあります。どちらの抽出メソッドにも任意で options パラメータを指定でき、抽出対象とするドキュメントの pageIndexes に加えて、画像抽出(image extraction)に関するいくつかのオプションも指定できます。
- TypeScript
- Python
const extractedResult = await extractionClient.extractDataFromDocumentUrl(
'www.file-url.com',
{ pageIndexes: [0, 1, 2] }
);
extracted_result = await extraction_client.extract_data_from_document_url(
'www.file-url.com',
{'pageIndexes': [0, 1, 2]},
)
次のステップ
テキストを抽出したら、次のことができます。
- テキストを解析し、Squid の database connectors を使ってデータベースに書き込む。
- テキストをクエリの一部として Squid AI Agent に渡し、テキストに基づいて質問に回答したりアクションを実行したりする。