记录一个BeautifulSoup的正则匹配问题
Apr 14, 2016
在修改贴吧爬虫时候出现的问题
在使用寻找符合相应正则串的标签时,如果正则串中带了空格,无论如何也是匹配不到的…1
.find_all()
例:
1 | .find_all("div",class_=re.compile(r"j_d_post_content")) |
可以正确匹配所有标签:
1 | <div <span class="html-attribute-name">id</span>="<span class="html-attribute-value">post_content_pid</span>" <span class="html-attribute-name">class</span>="<span class="html-attribute-value">d_post_content j_d_post_content clearfix</span>">content</div> |
但是只要正则串中带了空格,如:
1 | .find_all("div",class_=re.compile(r"d_post_content j_d_post_content")) |
就不行了
目前还没找到问题所在…