标签归档:html

去除网页中的html标签

最近做的一个全文搜索,用来过滤网页帖子的广告词和敏感词,发现有的网页中文字之间有html标记,导致无法准确的搜索出来。如: 广

于是用python脚本对网页内容进行处理,去除html标签。

发现对一些不规则的标签处理会报错,异常捕获后原样输出。