.NET C# – 文本文件中的随机访问 – 没有简单的方法吗?

我有一个文本文件,其中包含几个“记录”。 每条记录都包含一个名称和一组数字作为数据。

我正在尝试构建一个将读取文件的类,仅显示所有记录的名称,然后允许用户选择他/她想要的记录数据。

我第一次浏览文件时,我只读取标题名称,但我可以跟踪标题所在文件中的“位置”。 我需要随机访问文本文件,以便在用户请求后查找每个记录的开头。

我必须这样做,因为文件太大,无法完全在内存(1GB +)中读取应用程序的其他内存需求。

我已经尝试使用.NET StreamReader类来实现这一点(它提供了非常容易使用的’ReadLine’function,但是没有办法捕获文件的真实位置(BaseStream属性中的位置因为缓冲类使用)。

在.NET中没有简单的方法吗?

提供了一些很好的答案,但我找不到一些可以在我非常简单的情况下工作的源代码。 在这里,它希望它能节省别人我花在搜索周围的时间。

我所指的“非常简单的情况”是:文本编码是固定宽度的,并且整个文件中的行结束字符是相同的。 这段代码适用于我的情况(我正在解析一个日志文件,我有时必须在文件中寻找,然后再回来。我实现的就是做我需要做的事情(例如:只有一个构造函数) ,并且只覆盖ReadLine()),所以很可能你需要添加代码……但我认为这是一个合理的起点。

public class PositionableStreamReader : StreamReader { public PositionableStreamReader(string path) :base(path) {} private int myLineEndingCharacterLength = Environment.NewLine.Length; public int LineEndingCharacterLength { get { return myLineEndingCharacterLength; } set { myLineEndingCharacterLength = value; } } public override string ReadLine() { string line = base.ReadLine(); if (null != line) myStreamPosition += line.Length + myLineEndingCharacterLength; return line; } private long myStreamPosition = 0; public long Position { get { return myStreamPosition; } set { myStreamPosition = value; this.BaseStream.Position = value; this.DiscardBufferedData(); } } } 

以下是如何使用PositionableStreamReader的示例:

 PositionableStreamReader sr = new PositionableStreamReader("somepath.txt"); // read some lines while (something) sr.ReadLine(); // bookmark the current position long streamPosition = sr.Position; // read some lines while (something) sr.ReadLine(); // go back to the bookmarked position sr.Position = streamPosition; // read some lines while (something) sr.ReadLine(); 

FileStream具有seek()方法。

您可以使用System.IO.FileStream而不是StreamReader。 如果您确切知道什么文件包含(例如编码),您可以像使用StreamReader一样执行所有操作。

如果您对数据文件的编写方式很灵活,并且不介意它对文本编辑器不太友好,那么您可以使用BinaryWriter编写记录:

 using (BinaryWriter writer = new BinaryWriter(File.Open("data.txt", FileMode.Create))) { writer.Write("one,1,1,1,1"); writer.Write("two,2,2,2,2"); writer.Write("three,3,3,3,3"); } 

然后,最初读取每条记录很简单,因为您可以使用BinaryReader的ReadString方法:

 using (BinaryReader reader = new BinaryReader(File.OpenRead("data.txt"))) { string line = null; long position = reader.BaseStream.Position; while (reader.PeekChar() > -1) { line = reader.ReadString(); //parse the name out of the line here... Console.WriteLine("{0},{1}", position, line); position = reader.BaseStream.Position; } } 

BinaryReader没有缓冲,因此您可以获得适当的存储位置并在以后使用。 唯一的麻烦就是解析该行的名称,无论如何您可能需要使用StreamReader。

编码是固定大小的(例如ASCII或UCS-2)吗? 如果是这样,您可以跟踪字符索引(基于您看到的字符数)并根据该索引查找二进制索引。

否则,不 – 你基本上需要编写自己的StreamReader实现,它可以让你查看二进制索引。 很遗憾StreamReader没有实现这一点,我同意。

我认为FileHelpers库运行时记录function可能会对您有所帮助。 http://filehelpers.sourceforge.net/runtime_classes.html

一些可能感兴趣的项目。

1)如果行是一组固定长度的字符,如果字符集具有可变大小(如UTF-8),那么这不是必需的有用信息。 所以检查你的字符集。

2)您可以通过使用BaseStream.Position值确定StreamReader文件光标的确切位置如果先刷新()缓冲区(这将强制当前位置为下一次读取开始的位置 – 最后一个字节后的一个字节)字节读取)。

3)如果你事先知道每个记录的确切长度是相同的字符数,并且字符集使用固定宽度的字符(所以每行的字节数相同),你可以使用FileStream固定缓冲区大小以匹配行的大小,并且每次读取结束时光标的位置将是下一行的开头。

4)是否有任何特殊原因,如果行长度相同(假设以字节为单位),您不是简单地使用行号并根据行大小x行号计算文件中的字节偏移量?

你确定文件“太大”了吗? 你有没有尝试过它并导致问题?

如果你分配了大量的内存,并且你现在没有使用它,Windows只会将它交换到磁盘。 因此,通过从“内存”访问它,您将完成您想要的 – 随机访问磁盘上的文件。

2006年在这里提出了这个确切的问题: http : //www.devnewsgroups.net/group/microsoft.public.dotnet.framework/topic40275.aspx

摘要:

“问题是StreamReader缓冲数据,因此BaseStream.Position属性中返回的值总是在实际处理的行之前。”

但是,“如果文件以固定宽度的文本编码进行编码,则可以跟踪已读取的文本数量并将其乘以宽度”

如果没有,你可以只使用FileStream并一次读取一个char,然后BaseStream.Position属性应该是正确的