使用Python批量爬取并下载具有防盗链保护的文件

使用Python批量爬取并下载具有防盗链保护的文件

2024-11-10 17:11

封面图片：《Python程序设计实验指导书》，董付国编著，清华大学出版社

=================

第一步：确定要爬取的目标页面，以http://jwc.sdtbu.edu.cn/info/2002/5418.htm为例，使用浏览器打开，如下：

第二步：分析网页源代码，得到要下载的文件链接地址，如图：

第三步：编写代码，尝试直接获取文件地址并下载，出错，因为该网站有反爬设置，如图：

第四步：参考文中的描述，修改代码，模拟浏览器，如图：

运行代码下载到的文件：

打开下载后的文件，内容如下，这说明网站有防盗链功能：

第五步：继续修改代码，假装是使用浏览器从页面正常下载，完整代码如下：