抓取百度首页的HTML源代码,并将其保存到一个名为baidu.html的文件中。打开这个文件,可以看到一个和百度首页一模一样的页面。
可以使用Chrome浏览器,按下F12打开开发者工具。
Elments:Javascript代码以及用户操作之后显示的页面效果Console:运行Javascript代码片段,显示网页运行时的日志、错误和警告信息
Sources:查看和调试网页的源代码文件
Network:查看网页的所有网络请求
HTTP(HyperText Transfer Protocol,超文本传输协议)是用于传输超文本(如HTML)的应用层协议,是现代Web通信的基础。它定义了客户端(如Web浏览器)和服务器之间如何请求和传递数据。 HTTP协议把一条消息分为三大块内容,无论是请求还是响应都是三块内容。
- 请求行:请求方式(get/post),请求url地址,协议版本
- 请求头:提供了附加信息,帮助服务器处理请求
- 请求体 :一般放一些请求参数
- 状态行 :协议版本,状态码,状态文本
- 响应头:提供了一些附加信息,帮助客户端处理响应
- 响应体 :服务器返回的真正客户端要用的内容(HTML,json)等
请求头的重要内容
- User-Agent:标识请求的来源,告诉服务器客户端的身份
Referer:指示当前请求的来源页面URL,用于防盗链和反爬虫,服务器可以通过Referer头判断请求是否合
cookie:存储和传递会话信息和用户信息,通常用于身份验证和跟踪用户状态。在爬虫中,通过设置合适的cookie,可以模拟登录后的状态,访问需要身份验证的页面。
响应头的重要内容
- cookie: 本地字符串数据信息(用户登录信息, 反爬的token)
- 各种字符串,防止攻击和反爬
请求方式
GET:
- 作用:请求从服务器获取资源。
- 特点:参数包含在URL中,适合请求静态资源或查询操作。
- 用途:爬取网页内容,获取数据。
POST:
- 作用:向服务器提交数据。
- 特点:参数包含在请求体中,适合提交表单、上传文件等操作。
- 用途:模拟用户登录,提交表单数据。
请输入你要搜索的内容:你好 搜索结果已保存到sogou_search_results.html文件中。
请输入你要翻译的英语单词:hello 翻译结果: int. 打招呼; 哈喽,喂; 你好,您好; 表示问候 n. “喂”的招呼声或问候声 vi. 喊“喂
电影数据已保存到 douban_movies.csv 文件中。
以上就是本篇文章【网络爬虫入门(学习笔记)】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/quote/66673.html 行业 资讯 企业新闻 行情 企业黄页 同类资讯 网站地图 返回首页 物流园资讯移动站 http://mip.xhstdz.com/ , 查看更多图片已保存为 Example.jpg