去除网页中的html标签

最近做的一个全文搜索,用来过滤网页帖子的广告词和敏感词,发现有的网页中文字之间有html标记,导致无法准确的搜索出来。如: 广

于是用python脚本对网页内容进行处理,去除html标签。

发现对一些不规则的标签处理会报错,异常捕获后原样输出。

#!/bin/env python
# -*- coding: utf-8-*-
from HTMLParser import HTMLParser
import sys

def strip_tags(html):
        result=[]
        parse=HTMLParser()
        parse.handle_data=result.append
        parse.feed(html)
        parse.close()
        return "".join(result)

if __name__=="__main__":
        for line in sys.stdin:
                try:
                        line=line.strip()
                        print strip_tags(line)
                except:
                        print line

发表评论

电子邮件地址不会被公开。 必填项已用*标注