前不久遇到一个问题,是公司早期的基础库遇到的,其实很低级,但是还是记录下来。出错点是一个 IO 流的写入bug,我们项目会有一种专有的数据格式,这个格式的奇葩点在于如果设置 IO 读缓冲区为 2014 字节的时候,整个文件刚好能读完,也就是说其 length 刚好是 1024 的倍数。后来在一次升级中增加了更多的文件格式,并且新的文件格式使用了新的自定义写入流,具有加密和压缩的作用,这样一来,文件的长度就不一定是 1024 的倍数了。
后来通过查看这个基础类的源代码发现因为是 .NET 2.0 时代的东西,也没有 Stream.Copy 的方法,于是当时的程序员手动写了个 Stream.Copy 的方法,我稍作改动为了更直观将输出流改为输出到文件,代码大概如下:
var fs_in = System.IO.File.OpenRead(@"C:\3.0.6.apk");
var fs_out = System.IO.File.OpenWrite(@"C:\3.0.6.apk.copy");
byte[] buffer = new byte[1024];
while (fs_in.Read(buffer,0,buffer.Length)>0)
{
fs_out.Write(buffer, 0, buffer.Length);
}
Console.WriteLine("复制完成");
所以一眼就能看出这个方法简直有天大的 bug ,假设文件长度不为 1024 的倍数,永远会在文件尾部多补充上一段的冗余数据。
diff.PNG
这里整整多出了 878 字节的数据,导致整个文件都不对了,明显是基础知识都没学好。
增加一个变量保存实际读取到的字节数,改为如下:
var fs_in = System.IO.File.OpenRead(@"C:\迅雷下载\3.0.6.apk");
var fs_out = System.IO.File.OpenWrite(@"C:\迅雷下载\3.0.6.apk.copy");
byte[] buffer = new byte[1024];
int readBytes = 0;
while ((readBytes= fs_in.Read(buffer, 0, buffer.Length)) >0)
{
fs_out.Write(buffer, 0, readBytes);
}
Console.WriteLine("复制完成");
对于处理大型文件,一般都有进度指示,比如处理压缩了百分多少之类的,这里我们也可以加上,比如专门写一个方法用于文件读取并返回 byte[] 和百分比。
static void ReadFile(string filename,int bufferLength, Action<byte[],int> callback)
{
if (!System.IO.File.Exists(filename)) return;
if (callback == null) return;
System.IO.FileInfo finfo = new System.IO.FileInfo(filename);
long fileLength = finfo.Length;
long totalReadBytes = 0;
var fs_in = System.IO.File.OpenRead(filename);
byte[] buffer = new byte[bufferLength];
int readBytes = 0;
while ((readBytes = fs_in.Read(buffer, 0, buffer.Length)) > 0)
{
byte[] data = new byte[readBytes];
Array.Copy(buffer, data, readBytes);
totalReadBytes += readBytes;
int percent = (int)((totalReadBytes / (double)fileLength) * 100);
callback(data, percent);
}
}
调用就很简单了:
static void Main(string[] args)
{
string filename = @"C:\3.0.6.apk";
var fs_in = System.IO.File.OpenRead(filename);
long ttc = 0;
ReadFile(filename, 1024, (byte[] data, int percent) =>
{
ttc += data.Length;
Console.SetCursorPosition(0, 0);
Console.Write(percent+"%");
});
Console.WriteLine("len:"+ttc);
Console.ReadKey();
}
这是基于文件读取的,稍微改一下就可以改成输入流输出流的,这里就不贴出来了。文件读写非常耗时,特别是大文件,IO 和 网络请求都是 “重操作”,所以建议大家 IO 都放在单独的线程去执行。C# 中可以使用 Task、Thread、如果同时有多个线程需要执行就用 ThreadPool 或 Task,Java 或 Android 中用 Thread 或线程池,以及非常流行的 RxJava 等等 ...