Extract Text能夠提取不同類型文檔的文本內(nèi)容。它基于微軟索引服務(wù)器中的技術(shù),該服務(wù)器使用稱為iFilter的東西來(lái)索引文件中的文本。
【功能特點(diǎn)】
從PDF文檔中提取文本
從PDF文件中提取文本所需的PDF過(guò)濾器DLL包含在Adobe Reader 7.0.5到9.x中。從Adobe Reader 10(也稱為Adobe Reader x)的發(fā)布開(kāi)始,該DLL不再是Adobe Reader安裝的一部分。
從Office文檔中提取文本
Microsoft提供了一個(gè)篩選器包,使您能夠從以下文件格式提取文本:.docx、.docm、.pptx、.pptm、.xlsx、.xlsm、.xlsb、.zip、.one、.vdx、.vsd、.vss、.vst、.vdx、.vsx和.vtx。
【使用說(shuō)明】
這個(gè)程序使用起來(lái)很簡(jiǎn)單。它是一個(gè)命令行實(shí)用程序,只接受兩個(gè)參數(shù)。它必須知道要從中提取文本的文檔的文件名。它還需要保存提取文本的新文件的文件名。