Python网络爬虫篇一 requests的简单使用-孤独常伴
今天给大家带来的是Python网络爬虫篇一 requests的简单实用

 

  • 首先:安装requests,在cmd下输入如下命令就OK了

[/crayon]
如果出现pip用不了,首先查看是否安装完整的Python
如果Python没问题,那就是环境问题
在Python根目录下有一个名为Scripts的文件夹,进入文件夹之后可以看到里面就有pip
Python网络爬虫篇一 requests的简单使用-孤独常伴
然后 我的电脑->右击->属性->高级系统设置->环境变量->添加到Path->保存->重启cmd即可

  • 开始正题吧!

我们今天需要做的是从这个sitemap中取出这些链接
Python网络爬虫篇一 requests的简单使用-孤独常伴
既然需要取出里面指定内容,那么就需要正则表达式,那么我们就观察这个页面源码,f分析一下正则表达式该怎么写
Python网络爬虫篇一 requests的简单使用-孤独常伴
通过观察可以看出url
那么我们的正则表达式就解决了 (.*?)
首先调用requests这个库
Python网络爬虫篇一 requests的简单使用-孤独常伴
然后我们还需要正则表达式(re)
Python网络爬虫篇一 requests的简单使用-孤独常伴
获取源码,通过如下代码可以实现

[/crayon]
获取到之后,我们就需要提取出我们需要到的东西,通过如下代码即可实现
urls(变量名,可任意) = re.findall(‘(.*?)‘(正则表达式),url.text)
匹配成功之后我们就可以输出了

[/crayon]

  • 结果

Python网络爬虫篇一 requests的简单使用-孤独常伴
超过提取出了我们需要的东西
完整代码如下,不会的朋友可以Copy学习

[/crayon]
有不懂的朋友可以联系我QQ99746460,希望大家常来本博客.