JS 如何判断乱码
^[^\u4e00-\u9fa5\w\s]+用正则试试
看具体应用场景吧,此路不通,大不了换种方式。 例如如果这些文件是用户上传的,直接上传的时候修改文件名。
又试了一个方法。不过实现这个可能会更困难一些,但是弄好了的话准确率应该比上面那个更高。 这种方法应该只对汉字有效,所以还是有点局限的。 首先将字符串通过Google翻译从中文翻译成英文,然后再将结果从英文翻译成中文。如果原来的字符串不是乱码的话,最终的中文和原来的字符串肯定会非常相似,但是如果是乱码的话,结果会非常不同。 Google翻译的API好像要钱,好像只能抓取网页了。 这种方法主要是判断字符串中是否具有汉语应该具有的模式,而自动翻译软件绝对是提取模式的比较好的工具。
|