对于现在的云存储服务商来说,屏蔽掉淫*秽*色*情信息已经是当务之急,但如何才能够让过滤的信息更准确,更高效呢?虽然各大云存储厂商都有着自己的识别手段,但是笔者还是觉得应该从以下四个步骤着手,才能够让淫秽色情在云存储上无所遁形!
步骤一:基本筛选
通过文件名+MD5识别的方式是目前很多网站和云盘经常使用的方式,这个方式应用起来比较简单,而且效果也非常不错,能够识别并删除几乎大多数的淫秽色情信息。
文件名的识别非常简单,即通过专业的爬虫工具,在云盘中扫描,对文件名、文件格式等信息进行扫描,提取出敏感词语,并对可疑的文件进行删除操作。
文件名
这个文件识别用处还是非常大的,中文、日语、英语那些词都太明显了,一抓一个准,所以这个方式能够识别出很多违法信息。
除了通过文件名是被的方式,MD5识别也是一个非常重要的方式。MD5值就像是文件的“数字指纹”。每个文件的MD5值是不同的,当发现一个文件是非法信息后,云盘系统就会将MD5值存入到这个数据库中,这个时候网上所有是这个MD5值的文件都会被删除。
利用MD5算法来进行文件校验的方案被大量应用到软件下载站、论坛数据库、系统文件等方面。
文件名+MD5识别虽然能够识别出大量的淫秽色情信息,但是他们还是有各自缺点的,例如视频文件?通过文件名+MD5的方式可能就会有漏网之鱼,这里面就要提我们的第二种筛选方式——视频筛选!