如何将文本从MS Word文档解析为字符串

我试图找到一种方法将word文档的文本解析为我项目中的字符串。我有超过600个单词(.doc)文件,我需要获取文本内容(如果可能的话,使用新的行和标签)和将它分配给每个字符串。

我一直在阅读有关Open XML SDK的内容,但看起来非常简单。

Open XML SDK仅适用于2007和更新的格式,并且使用起来并不简单。

如果性能不是问题,您可以使用Word Automation并让Word为您执行此操作。 它看起来像这样:

 var app = new Application(); var doc = app.Documents.Open(documentLocation); string rangeText = doc.Range().Text; doc.Save(); doc.Close(); Marshal.ReleaseComObject(doc); Marshal.ReleaseComObject(app); 

有关更完整的示例和说明, 请参阅http://www.codeproject.com/Articles/18703/Word-2007-Automation或http://www.codeproject.com/Articles/21247/Word-Automation 。 请注意,如果您的文档移动复杂(脚注,文本框,表格……),这可能会变得有点棘手。

另一种选择是将文档保存为文本,然后读取文本文件。 看看这个 – http://msdn.microsoft.com/en-us/library/microsoft.office.tools.word.document.saveas(v=vs.80).aspx

你可以看看NPOI :

该项目是http://poi.apache.org/上的POI Java项目的.NET版本。 POI是一个开源项目,可以帮助您读/写xls,doc,ppt文件。 它有广泛的应用。

请查看此前的SO线程以获取更多信息。