使用antiword讀取word文檔
作者: 鄭曉 分類: Linux, Python 發(fā)布于: 2017-03-07 00:08 瀏覽:60,101 評論(5)
antiword是linux及其他RISC OS下免費(fèi)的ms word文檔讀取器。使用它可以很方便的在Linux中讀取word文檔并輸出為純文本字符串。
下載地址:http://www.winfield.demon.nl
下載后解壓、編譯安裝:
tar -zxvf antiword-0.37.tar.gz
cd antiword-0.37
make
make install
默認(rèn)安裝到當(dāng)前賬戶下的bin目錄中。
使用:
終端中
/home/pi/bin/antiword antiword-test.doc
其他語言中通過各自執(zhí)行系統(tǒng)命令的方式來執(zhí)行,比如Python中:
import subprocess
word_file = "antiword-test.doc"
content = subprocess.check_output(["/home/pi/antiword", word_file])
print content
比如我有個(gè)doc文件是這樣的:
執(zhí)行結(jié)果類似這樣:
其中的非字符串部分被過濾了。
本文采用知識共享署名-非商業(yè)性使用 3.0 中國大陸許可協(xié)議進(jìn)行許可,轉(zhuǎn)載時(shí)請注明出處及相應(yīng)鏈接。
本文永久鏈接: http://yjfs.org.cn/antiword-read-word-doc.html
unoconv-convert-document-openoffice.html 你說的這個(gè)地址不對啊