當前位置:博客首頁>>Linux >> 閱讀正文

使用antiword讀取word文檔

作者: 鄭曉 分類: Linux, Python 發(fā)布于: 2017-03-07 00:08 瀏覽:59,799 評論(5)


antiword是linux及其他RISC OS下免費的ms word文檔讀取器。使用它可以很方便的在Linux中讀取word文檔并輸出為純文本字符串。

下載地址:http://www.winfield.demon.nl

下載后解壓、編譯安裝:

tar -zxvf antiword-0.37.tar.gz
cd antiword-0.37
make
make install

默認安裝到當前賬戶下的bin目錄中。

使用:
終端中

/home/pi/bin/antiword antiword-test.doc

其他語言中通過各自執(zhí)行系統(tǒng)命令的方式來執(zhí)行,比如Python中:

import subprocess
word_file = "antiword-test.doc"
content = subprocess.check_output(["/home/pi/antiword", word_file])
print content

比如我有個doc文件是這樣的:

執(zhí)行結果類似這樣:

其中的非字符串部分被過濾了。

? ? ? ?

本文采用知識共享署名-非商業(yè)性使用 3.0 中國大陸許可協議進行許可,轉載時請注明出處及相應鏈接。

本文永久鏈接: http://www.yjfs.org.cn/antiword-read-word-doc.html

使用antiword讀取word文檔:目前有5 條留言

用戶評論頭像 ZL發(fā)表于 2019年03月22日 19:43[回復]

unoconv-convert-document-openoffice.html 你說的這個地址不對啊

用戶評論頭像 ZL發(fā)表于 2019年03月22日 19:42[回復]

你可以看看這篇,unoconv-convert-document-openoffice.html 你說的這個地址不對啊

用戶評論頭像 php讀取word求助發(fā)表于 2018年08月02日 15:00[回復]

博主,你好!php讀取word求助,按照這個教程,讀取出來的word是純文本的,能否保留原排版格式 呢

    用戶評論頭像 鄭曉發(fā)表于 2018年08月02日 15:15[回復]

    剛測了下,這個工具貌似不能帶格式輸出。

    用戶評論頭像 鄭曉發(fā)表于 2018年08月02日 16:06[回復]

    你可以看看這篇,unoconv-convert-document-openoffice.html

發(fā)表評論

change vcode