这两天逛guthub,看到一个Java操作Excel文件的项目,突然想到我们公司的WEB应用,也经常会涉及到Excel的操作,比如说很常用的Excel文件导入。
那么我们是如何判断出,上传的文件确实是Excel文件呢?
我翻阅了一下我们系统里面的代码,常见的写法如下:
做法很简单,就是直接获取文件名,取最后一个“.”符号后面的字符串,然后判断字符串是否属于xls、xlsx。
仔细想一下,其实这里面有很多漏洞。比如一个恶意的“用户”传上来的是一张改了扩展名为xlsx的图片,那我们系统处理的时候就会产生异常;或者那些原本就是Excel文件,但是没有扩展名的,其实也应该能够正常导入;或者一些恶意的“用户”可能会绕过这个校验,搞一些小破坏……
我在这个github项目里面,看到作者使用了POI的FileMagic类,一看名字,我有点思路了。我想起来,以前看JVM的书籍的时候,看到过魔数这个概念,英文叫做“Magic Number”。说法是:每个Class文件的头4个字节称为魔数,它的唯一作用是用于确定这个文件是否为一个能被虚拟机接收的Class文件。
我拓展开来,是不是这些不同类型的文件都有属于自己的魔数呢?
百度了一下,确实,一般类型的文件都有特定的魔数:
我查阅资料和POI工具的源码,发现xlsx文件的魔数十六进制的表示法是:0x50, 0x4b。
为了验证是否存在这个魔数,我创建了一个Excel文件,保存为test.xlsx,然后把这个文件的扩展名改成txt,方便我用sublime text打开他。打开之后看到文件最开始的字节,就是0x50, 0x4b。如下:
自此,思路就清晰了,我们可以通过判断文件的魔数,确定用户上传的文件的类型是否是我们想要的类型。可以写成这样的代码:
注意一下,只有3.17及以上的POI版本才有FileMagic类,否则的话你也自己去写相关的代码了。
本文分享自微信公众号 - 一个程序员的成长(xiaozaibuluo)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。