當(dāng)前位置:博客首頁>>Linux >> 閱讀正文

使用antiword讀取word文檔

作者: 鄭曉 分類: Linux, Python 發(fā)布于: 2017-03-07 00:08 瀏覽:60,101 評論(5)


antiword是linux及其他RISC OS下免費(fèi)的ms word文檔讀取器。使用它可以很方便的在Linux中讀取word文檔并輸出為純文本字符串。

下載地址:http://www.winfield.demon.nl

下載后解壓、編譯安裝:

tar -zxvf antiword-0.37.tar.gz
cd antiword-0.37
make
make install

默認(rèn)安裝到當(dāng)前賬戶下的bin目錄中。

使用:
終端中

/home/pi/bin/antiword antiword-test.doc

其他語言中通過各自執(zhí)行系統(tǒng)命令的方式來執(zhí)行,比如Python中:

import subprocess
word_file = "antiword-test.doc"
content = subprocess.check_output(["/home/pi/antiword", word_file])
print content

比如我有個(gè)doc文件是這樣的:

執(zhí)行結(jié)果類似這樣:

其中的非字符串部分被過濾了。

? ? ? ?

本文采用知識共享署名-非商業(yè)性使用 3.0 中國大陸許可協(xié)議進(jìn)行許可,轉(zhuǎn)載時(shí)請注明出處及相應(yīng)鏈接。

本文永久鏈接: http://yjfs.org.cn/antiword-read-word-doc.html

使用antiword讀取word文檔:目前有5 條留言

用戶評論頭像 ZL發(fā)表于 2019年03月22日 19:43[回復(fù)]

unoconv-convert-document-openoffice.html 你說的這個(gè)地址不對啊

用戶評論頭像 ZL發(fā)表于 2019年03月22日 19:42[回復(fù)]

你可以看看這篇,unoconv-convert-document-openoffice.html 你說的這個(gè)地址不對啊

用戶評論頭像 php讀取word求助發(fā)表于 2018年08月02日 15:00[回復(fù)]

博主,你好!php讀取word求助,按照這個(gè)教程,讀取出來的word是純文本的,能否保留原排版格式 呢

    用戶評論頭像 鄭曉發(fā)表于 2018年08月02日 15:15[回復(fù)]

    剛測了下,這個(gè)工具貌似不能帶格式輸出。

    用戶評論頭像 鄭曉發(fā)表于 2018年08月02日 16:06[回復(fù)]

    你可以看看這篇,unoconv-convert-document-openoffice.html

發(fā)表評論

change vcode