在修改贴吧爬虫时候出现的问题

在使用

1
.find_all()
寻找符合相应正则串的标签时,如果正则串中带了空格,无论如何也是匹配不到的…

例:

1
.find_all("div",class_=re.compile(r"j_d_post_content"))

可以正确匹配所有标签:

1
<div <span class="html-attribute-name">id</span>="<span class="html-attribute-value">post_content_pid</span>" <span class="html-attribute-name">class</span>="<span class="html-attribute-value">d_post_content j_d_post_content clearfix</span>">content</div>

但是只要正则串中带了空格,如:

1
.find_all("div",class_=re.compile(r"d_post_content j_d_post_content"))

就不行了

目前还没找到问题所在…