逐行读取大文本文件并搜索字符串

我目前正在开发一个应用程序，它读取大约50000行的文本文件。对于每一行，我需要检查它是否包含特定的字符串。

目前，我使用传统的System.IO.StreamReader逐行读取我的文件。

问题是文本文件的大小每次都会改变。我做了几个测试性能，我注意到当文件大小增加时，读取一行所需的时间就越多。

例如：

读取包含5000行的txt文件：0：40
读取包含10000行的txt文件：2：54

读取2倍大的文件需要4倍的时间。我无法想象读取100000行文件需要多长时间。

这是我的代码：

 using (StreamReader streamReader = new StreamReader(this.MyPath)) { while (streamReader.Peek() > 0) { string line = streamReader.ReadLine(); if (line.Contains(Resources.Constants.SpecificString) { // Do some action with the string. } } }

有没有办法避免这种情况：更大的文件=更多时间阅读一行？

试试这个：

 var toSearch = Resources.Constants.SpecificString; foreach (var str in File.ReadLines(MyPath).Where(s => s.Contains(toSearch))) { // Do some action with the string }

这样可以避免在循环之前通过缓存值来访问每次迭代的资源。如果这没有帮助，请尝试基于高级字符串搜索算法（例如KMP）编写自己的Contains 。

注意：请务必使用File.ReadLines ，它会懒惰地读取行（与同时查找一次读取所有行的File.ReadAllLines不同）。

使用RegEx.IsMatch ，您应该会看到一些性能改进。

 using (StreamReader streamReader = new StreamReader(this.MyPath)) { var regEx = new RegEx(MyPattern, RegexOptions.Compiled); while (streamReader.Peek() > 0) { string line = streamReader.ReadLine(); if (regEx.IsMatch(line)) { // Do some action with the string. } } }

但请记住使用已编译的RegEx。这是一篇非常好的文章，你可以看一些基准。

快乐的编码！

逐行读取大文本文件并搜索字符串

例如：

我应该在我的class级中使用哪个NHibernate.Mapping.Attribute来映射字典？

如何在C＃中设置系统属性

SiteMap导航和查询字符串

C＃后台工作者更新状态标签

在IIS中托管时支持Web服务

有趣的事件“处置”行为

代表的目的是什么，在c＃中是不可变的？

使用IMAP计算Gmail中的电子邮件数量

如何在使用asp.net 4.0创建的网站上传超过2 MB的内容

如何使用Windows API删除应用程序的MenuBar？

逐行读取大文本文件并搜索字符串

例如 ：

我应该在我的class级中使用哪个NHibernate.Mapping.Attribute来映射字典？

如何在C＃中设置系统属性

SiteMap导航和查询字符串

C＃后台工作者更新状态标签

在IIS中托管时支持Web服务

有趣的事件“处置”行为

代表的目的是什么，在c＃中是不可变的？

使用IMAP计算Gmail中的电子邮件数量

如何在使用asp.net 4.0创建的网站上传超过2 MB的内容

如何使用Windows API删除应用程序的MenuBar？

例如：