
部分网站出于保护版权等原因,会在网页中添加隐藏字符或干扰码。由于通常的替换白色字体法对部分情况不一定有效,本文通过使用通配符替换法,提供另外一种方法思路。
1.从网页复制内容到WORD,并认真观察干扰码的规律。以图示为例,我们发现,需要的正文为纯汉字。干扰码为数字、英语和符号。
2.对照ACSII码表,数字段十进制代码为48-57,大写英文十进制代码为65-90,其他为各类符号。由于我们需要保留的为纯汉字,所以可以将ACSII码表32-126码段全部替换为空。
3.在WORD中按“CTRL+H”调出替换窗口,在查找内容栏输入[^32-^126],然后在搜索选项勾选“使用通配符”,然后点击“全部替换”就可以得到干净清爽的正文了。
扩展阅读1:当我们需要更为精确的控制所需替换的字符时,比如替换所有大小写字母、数字还有左右括号时,我们还可以如下方式填写噢。[a-z,A-Z,0-9,^40-^41]
扩展阅读2:由于网页干扰码的生成方法有很多种,有些甚至同一段正文就用了白色字体法、样式隐藏法等多种方法进行干扰,所以在实际应用中需要大家仔细观察,灵活运用。
扩展阅读3:关于采用字体颜色法替换干扰码可以参见如下链接。
2巧用 word2013 去除干扰码变为纯文本
