Converter MSWORD para XML / HTML no Linux

votos
2

Eu preciso converter arquivo MSWord em XML ou HTML, preservando a estrutura do arquivo (principalmente tabelas). Aconteceu de eu encontrar tika, que é bastante poderoso em extrair texto de arquivos MSWord (e quaisquer arquivos), conforme segue:

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text

e eu posso escolher entre as opções de salvar a saída em html / XML, como segue:

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html

Mas a saída é basicamente como um texto simples escrito em HTML, de modo que não é possível obter a estrutura da tabela e outros elementos do documento.

Existe alguma implementação de Tika, em Perl ou Python, onde é possível converter o documento em XML / HTML enquanto maintining a estrutura dos seus elementos? Ou há qualquer outra ferramenta no linux que pode fazer isso?

Publicado 09/04/2013 em 23:57
fonte usuário
Em outras línguas...                            


1 respostas

votos
1

Instalar OpenOffice SDK, oferece API poderosa para todos os tipos de documentos (incluindo conversões).

http://www.oooforum.org/forum/viewtopic.phtml?t=7242

Respondeu 10/04/2013 em 00:29
fonte usuário

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more