相关动态
python获取今日头条搜索信息_python爬虫(十二、爬取今日头条关键词所有文章)
2024-11-01 23:24

今日头条

python获取今日头条搜索信息_python爬虫(十二、爬取今日头条关键词所有文章)

我们以搜索’妹子’为例

那 么 我 们 在 右 上 角 的 搜 索 框 搜 索 妹 子 , 出 来 了 一 系 列 文 章 那么我们在右上角的搜索框搜索妹子,出来了一系列文章那么我们在右上角的搜索框搜索妹子,出来了一系列文章

检 查 网 页 的 源 代 码 , 发 现 只 是 一 个 简 短 的 框 架 检查网页的源代码,发现只是一个简短的框架检查网页的源代码,发现只是一个简短的框架

于 是 猜 测 这 是 用 于是猜测这是用于是猜测这是用AJAX技术请求的,那么我们打开XHR查看

果 不 其 然 , 就 在 这 里 , 现 在 我 们 就 是 构 造 这 些 J S 加 载 请 求 果不其然,就在这里,现在我们就是构造这些JS加载请求果不其然,就在这里,现在我们就是构造这些JS加载请求

打 开 这 个 数 据 包 的 h e a d e r s 部 分 查 看 打开这个数据包的headers部分查看打开这个数据包的headers部分查看

显 然 其 中 的 o f f s e t 是 决 定 翻 页 的 , 每 加 20 翻 一 页 显然其中的offset是决定翻页的,每加20翻一页显然其中的offset是决定翻页的,每加20翻一页

t i m e s t a m p 是 什 么 呢 ? timestamp是什么呢?timestamp是什么呢?

这 个 可 以 直 接 用 t i m e . t i m e ( ) 取 得 , 具 体 看 代 码 中 这个可以直接用time.time()取得,具体看代码中这个可以直接用time.time()取得,具体看代码中

接 下 来 就 是 请 求 , 转 化 为 字 典 , 取 出 需 要 的 内 容 接下来就是请求,转化为字典,取出需要的内容接下来就是请求,转化为字典,取出需要的内容

#-*-codeing = utf-8 -*-

#@Time : 2020/6/28 13:17

#@Author : issue小菜鸡

#@File : 今日头条爬取.py

#@Software: PyCharm

import time

import json

import requests

from urllib.parse import urlencode

def get_data(search_name,page):

data = { #构造请求的data

'aid':'24',

'app_name':'web_search',

'offset':page,

'format':'json',

'keyword':search_name,

'autoload':'true',

'count':'20',

'en_qc':'1',

'cur_tab': '1',

'from': 'search_tab',

'pd':'synthesis',

'timestamp': int(time.time()),

'_signature': '21oMXgAgEBAwjHnl59qFgNtbTUAAIWq5yRBJSZ83MdD56bgu5GDIJxHd0EHk8Y1-DDSzzYJ-ZlFlc5td8NE86Wb3wfbOIt2i-9L7pr2I3.bmY8SCimmZOjMIL2g7TKFO-Lj'

url = 'https://www.toutiao.com/api/search/content/?' + urlencode(data)

header={

'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36',

'x-requested-with':'XMLHttpRequest'

res = requests.get(url=url,headers=header)

return res

def find_content(search_name,page):

dic = get_data(search_name,page).json() #转化为json字典

data = dic['data']

if data is not None: #不为空才开始

for item in data:

if 'title' in item: #标题

print(item['title'])

else:

print('没有找到啊啊啊啊啊')

if 'article_url' in item: #文章url

print(item['article_url'])

page = 0

for i in range(0,9):

find_content('妹子',page)

    以上就是本篇文章【python获取今日头条搜索信息_python爬虫(十二、爬取今日头条关键词所有文章)】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/news/32.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://mip.xhstdz.com/ , 查看更多   
最新文章
电信卡怎么异地销户 销户流程是什么手机卡停机多久会被注销「电信卡怎么异地销户 销户流程是什么」
随着手机普及率越来越高,人们因为更工作、学习等各种原因更换手机号的频率也是越来越高,对于不用的手机号我们都需要进行销户,
梦金园去年净利同比降17.8%至1.89亿元 海外增700%
《科创板日报》3月29日讯(记者 徐赐豪)近期,黄金行情不断上涨,引发资本市场高度关注,黄金相关的企业也备受瞩目。昨晚公布其
怎么找回qq密码qq密码忘记了手机号也换了怎么办「怎么找回qq密码」
在日常的数字生活中,QQ作为我们常用的通讯工具之一,其账号安全显得尤为重要。然而,偶尔我们可能会遇到忘记密码的尴尬情况。别
大屏智能千元机 酷派5860价格欲破1100元酷派5860手机「大屏智能千元机 酷派5860价格欲破1100元」
(中关村在线手机频道行情报道)2012年3月6日,酷派5860(行货)在“ZOL商城”促销,最新报价为1181元,含发票。本款的配件为:
计步器怎么删掉手机自动计步器「计步器怎么删掉」
计步器作为现代智能设备的一部分,已经成为许多人日常健康管理的得力助手。然而,在某些情况下,用户可能需要删除计步器中的数据
三星今天上午宣布Note7爆炸原因 已导致损失超10亿美元手机爆炸「三星今天上午宣布Note7爆炸原因 已导致损失超10亿美元」
2016年8月, Galaxy Note 7智能手机在上市后,“引爆”了全球对于手机市场安全问题的关注,上百起电池燃烧事故让三星频繁陷入舆
CBA八强出炉!下半区比上半区惨烈,9-12最终排名确定!
在附加赛全部结束之后,八强的对阵已经全部出来了。其中上半区:广厦-青岛、辽宁-新疆。广厦和青岛的比赛,大家肯定都看好广厦。
财知道 | 爆卖上百万件!巴掌大的小东西,是年轻人的“到此一游”
或是四四方方、圆圆造型,或是形态各异,一块硬板刻着各式内容,再配上一块方寸大小的磁力贴片,曾被人吐槽“又土又贵”的冰箱贴
Z趋势:4G高速时代 机会与挑战并存4g手机价格「Z趋势:4G高速时代 机会与挑战并存」
2013年12月4日下午,工业和信息化部向中国联通、中国电信、中国移动正式发放了第四代移动通信业务牌照(即4G牌照),三家均获得T
华为手机工程模式怎么进入(华为手机工程模式怎么进入桌面)手机工程模式「华为手机工程模式怎么进入(华为手机工程模式怎么进入桌面)」
华为手机工程模式怎么进入相信很多小伙伴还不知道,现在让我们一起来看看吧!华为手机工程模式怎么进入(华为手机工程模式怎么进入