<div class="cnblogs_code">

类中,定义了很多的方法,但是很多方法都是没有实现的,
    这需要我们继承类,自己去实现一些方法
    如:
# Overridable -- handle start tag
def handle_starttag(self,tag,attrs):
    pass

# Overridable -- handle end tag
def handle_endtag(self,tag):
    pass

# Overridable -- handle character reference
def handle_charref(self,name):
    pass

# Overridable -- handle entity reference
def handle_entityref(self,name):
    pass

# Overridable -- handle data
def handle_data(self,data):
    pass

# Overridable -- handle comment
def handle_comment(self,data):
    pass

# Overridable -- handle declaration
def handle_decl(self,decl):
    pass

# Overridable -- handle processing instruction
def handle_pi(self,data):
    pass

<span style="color: #800000;">'''

下面是我做的demo

Python 3.3.2 (v3.3.2:d047928ae3f6,May 16 2013,00:03:43) [MSC v.1600 32, >>> ================================ RESTART ================================
>>>


Python Html module




http://www.blogs.com/hongten

<span style="color: #008000;">#<span style="color: #008000;">#################################################
遇到声明:DOCTYPE HTML PUBLIC <span style="color: #800000;">"<span style="color: #800000;">-//W3C//DTD HTML 4.01 Transitional//EN<span style="color: #800000;">" <span style="color: #800000;">"<span style="color: #800000;">http://www.w3.org/TR/html4/loose.dtd<span style="color: #800000;">" 开始处理:DOCTYPE HTML PUBLIC <span style="color: #800000;">"<span style="color: #800000;">-//W3C//DTD HTML 4.01 Transitional//EN<span style="color: #800000;">" <span style="color: #800000;">"<span style="color: #800000;">http://www.w3.org/TR/html4/loose.dtd<span style="color: #800000;">"<span style="color: #000000;">
遇到数据:
开始处理:

遇到起始标签:html 开始处理:html
遇到数据:
开始处理:

遇到起始标签:head 开始处理:head
遇到数据:
开始处理:

遇到起始标签:title 开始处理:title
遇到数据: Python Html module 开始处理: Python Html module
遇到结束标签:title 开始处理:title
遇到数据:
开始处理:

遇到起始标签:meta 开始处理:meta
遇到数据:
开始处理:

遇到起始标签:meta 开始处理:meta
遇到数据:
开始处理:

遇到起始标签:meta 开始处理:meta
遇到数据:
开始处理:

遇到起始标签:meta 开始处理:meta
遇到数据:
开始处理:

遇到结束标签:head 开始处理:head
遇到数据:
开始处理:

遇到注释: this <span style="color: #0000ff;">is comment 开始处理: this <span style="color: #0000ff;">is<span style="color: #000000;"> comment
遇到数据:
开始处理:

遇到起始标签:body 开始处理:body
遇到数据:
开始处理:

遇到起始标签:table 开始处理:table
遇到数据:
开始处理:

遇到起始标签:tr 开始处理:tr
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
Author
开始处理:
Author

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
Hongten
开始处理:
Hongten

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
Mail
开始处理:
Mail

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
hongtenzone@foxmail.com
开始处理:
hongtenzone@foxmail.com

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到结束标签:tr 开始处理:tr
遇到数据:
开始处理:

遇到起始标签:tr 开始处理:tr
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
Blog
开始处理:
Blog

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:a 开始处理:a
遇到数据:http://www.blogs.com/hongten 开始处理:http://www.blogs.com/<span style="color: #000000;">hongten
遇到结束标签:a 开始处理:a
遇到数据:
开始处理:

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
QQ
开始处理:
QQ

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到起始标签:td 开始处理:td
遇到数据:
648719819<span style="color: #000000;">
开始处理:
648719819<span style="color: #000000;">

遇到结束标签:td 开始处理:td
遇到数据:
开始处理:

遇到结束标签:tr 开始处理:tr
遇到数据:
开始处理:

遇到结束标签:table 开始处理:table
遇到数据:
开始处理:

遇到结束标签:body 开始处理:body
遇到数据:
开始处理:

遇到结束标签:html 开始处理:html
遇到数据:
开始处理:

>>>

html.parser

HTML_FILE =
HTML_STR =

( ( ( ( (

parser = MyHTMLParser(strict =

content =
( with open(path, line content += (

HTML_FILE =

HTML_STR =
( ( * 50
== main()

dawei

【声明】:淮南站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。