读取非常大的.xml.bz2文件

我想在不提取整个文件或执行任何XMLvalidation的情况下解析维基媒体的.xml.bzip2转储：

var filename = "enwiki-20160820-pages-articles.xml.bz2"; var settings = new XmlReaderSettings() { ValidationType = ValidationType.None, ConformanceLevel = ConformanceLevel.Auto // Fragment ? }; using (var stream = File.Open(filename, FileMode.Open)) using (var bz2 = new BZip2InputStream(stream)) using (var xml = XmlTextReader.Create(bz2, settings)) { xml.ReadToFollowing("page"); // ... }

BZip2InputStream工作 – 如果我使用StreamReader ，我可以逐行读取XML。但是当我使用XmlTextReader ，它在我尝试执行读取时失败：

System.Xml.XmlException：’发生了意外的文件结束。以下元素未关闭：mediawiki。第58行，第1位。’

bzip流不在 EOF。是否可以在BZip2流上打开XmlTextReader？或者还有其他方法可以做到这一点吗？

这应该工作。我使用了XmlReader和Xml Linq的组合。您可以根据需要解析XElement文档。

 using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Xml; using System.Xml.Linq; namespace ConsoleApplication29 { class Program { const string URL = @"https://dumps.wikimedia.org/enwiki/20160820/enwiki-20160820-abstract26.xml"; static void Main(string[] args) { XmlReader reader = XmlReader.Create(URL); while (!reader.EOF) { if (reader.Name != "doc") { reader.ReadToFollowing("doc"); } if (!reader.EOF) { XElement doc = (XElement)XElement.ReadFrom(reader); } } } } }

读取非常大的.xml.bz2文件

来自AudioPlayerAgent的HttpWebRequest

Hibernate查询中的Unicode字符串

点击链接事件webbrowser c＃？

在处理控件时避免调用Invoke

SQL Server和C＃：获取最后插入的id

如何访问文本框，使用asp.net Web表单从代码后面的更新面板内标签

稍后在程序中调整C＃中的数组大小

如何在C＃中替换字符串中的文本？

如何通过C＃中的接口实现事件？

套接字服务器一直在监听