结合正则表达式爬取网页

博主：噜啦
发布时间：2019 年 10 月 09 日
1668 次浏览
159字数
分类： Python笔记本

第一个爬虫哈哈哈哈哈

代码

import requests
import re

content = requests.get('http://www.cnu.cc/discoveryPage/hot-0').text
pattern = re.compile(r'<a href="(.*?)".*?title">(.*?)</d.*?author">(.*?)</di.*?src="(.*?)"', re.S)
results = re.findall(pattern, content)
print(results)

for result in results:
    url, name, author, ads = result
    print(url, re.sub('\s', '', name), re.sub('\s', '', author), ads)

运行

附上小姐姐图片地址

最后修改：2019 年 10 月 09 日

如果觉得我的文章对你有用，请随意赞赏