网络爬虫入门（学习笔记） - 物流园资讯移动站

网络爬虫入门（学习笔记）

2024-11-10 21:30

抓取百度首页的HTML源代码，并将其保存到一个名为baidu.html的文件中。打开这个文件，可以看到一个和百度首页一模一样的页面。

网络爬虫入门（学习笔记）

可以使用Chrome浏览器，按下F12打开开发者工具。

Elments：Javascript代码以及用户操作之后显示的页面效果Console：运行Javascript代码片段，显示网页运行时的日志、错误和警告信息

Sources：查看和调试网页的源代码文件

Network：查看网页的所有网络请求

HTTP（HyperText Transfer Protocol，超文本传输协议）是用于传输超文本（如HTML）的应用层协议，是现代Web通信的基础。它定义了客户端（如Web浏览器）和服务器之间如何请求和传递数据。 HTTP协议把一条消息分为三大块内容，无论是请求还是响应都是三块内容。

请求行：请求方式(get/post)，请求url地址，协议版本
请求头：提供了附加信息，帮助服务器处理请求
请求体：一般放一些请求参数
状态行：协议版本，状态码，状态文本
响应头：提供了一些附加信息，帮助客户端处理响应
响应体：服务器返回的真正客户端要用的内容(HTML,json)等

请求头的重要内容

User-Agent：标识请求的来源，告诉服务器客户端的身份

Referer：指示当前请求的来源页面URL，用于防盗链和反爬虫，服务器可以通过Referer头判断请求是否合

cookie：存储和传递会话信息和用户信息，通常用于身份验证和跟踪用户状态。在爬虫中，通过设置合适的cookie，可以模拟登录后的状态，访问需要身份验证的页面。

响应头的重要内容

cookie: 本地字符串数据信息(用户登录信息, 反爬的token)
各种字符串，防止攻击和反爬

请求方式

GET：

作用：请求从服务器获取资源。
特点：参数包含在URL中，适合请求静态资源或查询操作。
用途：爬取网页内容，获取数据。

POST：

作用：向服务器提交数据。
特点：参数包含在请求体中，适合提交表单、上传文件等操作。
用途：模拟用户登录，提交表单数据。

请输入你要搜索的内容:你好搜索结果已保存到sogou_search_results.html文件中。

请输入你要翻译的英语单词:hello 翻译结果: int. 打招呼; 哈喽，喂; 你好，您好; 表示问候 n. “喂”的招呼声或问候声 vi. 喊“喂

电影数据已保存到 douban_movies.csv 文件中。

图片已保存为 Example.jpg

以上就是本篇文章【网络爬虫入门（学习笔记）】的全部内容了，欢迎阅览！文章地址：http://sjzytwl.xhstdz.com/quote/66673.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页物流园资讯移动站 http://mip.xhstdz.com/ , 查看更多