Scrapy shell

首页 > Scrapy shell

Scrapy shell

一、Scrapy shell简介

Scrapy终端是一个交互终端，供您在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取数据的代码，不过您可以将其作为正常的Python终端，在上面测试任何的Python代码。

该终端是用来测试XPath或CSS表达式，查看他们的工作方式及从爬取的网页中提取的数据。在编写您的spider时，该终端提供了交互性测试您的表达式代码的功能，免去了每次修改后运行spider的麻烦。

一旦熟悉了Scrapy终端后，您会发现其在开发和调试spider时发挥的巨大作用。

如果您安装了 IPython ，Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终端与其他相比更为强大，提供智能的自动补全，高亮输出，及其他特性。

二、启动终端

scrapy shell

三、使用终端

response对象

response.body

获取响应到二进制类型

response.text

获取响应的文本

response.url

获取响应的url

response.status

获取响应的状态码

response的解析

response.xpath()

使用xpath路径查询特定元素，返回一个selector对象

response.css()

使用css_selector查询元素，返回一个selector对象

selector对象

extract()

使用xpath请求到的对象是一个selector对象，需要进一步使用extract()方法拆包，转换为unicode字符串

extract_first()

返回第一个解析到的值，如果列表为空，此种方法也不会报错，会返回一个空值

xpath()

selector对象也支持xpath查询

css()

selector对象也支持css语句查询

item对象

dict(item_obj)

可以使用dict方法直接将item对象转换成字典对象

item(dict_obj)

也可以使用字典对象创建一个Item对象

转载于:https://www.cnblogs.com/huanggaoyu/p/10654922.html

更多相关：

DSP-SLAM：具有深度形状先验的面向对象SLAM

点云PCL免费知识星球，点云论文速读。文章：DSP-SLAM: Object Oriented SLAM with Deep Shape Priors作者：Jingwen Wang Martin Runz Lourdes Agapito编译：点云PCL代码：https://github.com/JingwenWang95/DSP-S...
ATS中的RAM缓存简介

RAM缓存新RAM缓存算法(CLFUS) 新的RAM缓存使用的创意来自许多缓存替换策略和算法，包括LRU，LFU，CLOCK，GDFS及2Q，它被命名为时钟周期内最小频繁使用大小算法CLFUS(Clocked Least Frequently Used by Size)。它避开了任何专利算法，具有如下特性：均衡最近性(Rec...
C4D入门学习教程

MP4 |视频:AVC，1280×720 30 fps |音频:AAC，48 KHz，2 Ch |时长:2h 12m 语言：英语+中英文字幕（根据原英文字幕机译更准确）|大小解压后:560M C4D是一个有抱负的运动图形艺术家和设计师的重要工具。借助C4D，您可以使用3D对象、动态效果和动画来增强运动图形、模型和可视化效果。本课...
再记一次ceph object unfound的艰辛历程

文章目录先说问题：再说解决尝试1：尝试2(该尝试建议先在自己环境搭配对应业务测试通过后再现场尝试)：感谢学无止境996同学的陪伴和vigourtyy美丽女友的支持，直到这个解决问题的深夜先说问题： ceph 12.2.1生产环境：3副本 tier + 3副本data 机房在拥有业务的情况下重启集群交换机，产生如下场景...
005本周总结报告

这周主要学习了java中的类和对象的知识点，发现和C++中的类和对象极为相似，对于类和对象的概念理解起来也简单。同时在自学的过程中也把类的知识重新复习巩固了一下（如类的三大特征：继承，封装和多态，构造，成员对象的访问权限，构造，无参有参函数的调用等），同时也了解到一些新的概念，比如类对象创建和引用占据堆内存和栈内存，输出对象时默认调...
linux 安装输入法

IBus IBus是一个框架，支持多种输入法 IBus输入法安装和设置 IBus是一个框架，支持多种输入法。安裝IBus框架：在终端输入: sudo apt-get install ibus ibus-clutter ibus-gtk ibus-gtk3 ibus-qt4 启用IBus框架：在终端输入: im-swi...
如何理解numpy.nan_to_num

nan 是not a number ,inf是无穷大 numpy.nan_to_num(x): 使用0代替数组x中的nan元素，使用有限的数字代替inf元素...
CUDA Samples目录

简介 Simple Reference 基础CUDA示例，适用于初学者，反映了运用CUDA和CUDA runtime APIs的一些基本概念.Utilities Reference 演示如何查询设备能力和衡量GPU/CPU 带宽的实例程序。Graphics Reference 图形化示例展现的是 CUDA, OpenGL,...
Linux下使用diff和patch制作及打补丁(已经实践可行！)

在做开发的过程中难免需要给内核及下载的一些源码打补丁，所以我们先学习下Linux下使用如如何使用diff制作补丁以及如何使用patch打补丁。...
在CentOS 6.3 64bit上安装Apache Trafficserver 4.2.3挂载SAS硬盘和SSD

我在调研ATS 4.2.3挂载SSD的过程中，遇到很多坑，特此详细记录我摸索的主要过程，以便大家以后避免之。基本思路可以完全照搬参考文献[2][3] 下面的安装假定是以root用户身份进行的，Linux服务器已经安装好系统，磁盘已经做好分区。首先需要认识我们的Linux服务器的硬件配置和软件情况硬件配置： DELL...
C++中stl使用过程中的一些tips

该博文整理一些在使用stl编程过程中遇到的小经验： 1.在多线程环境下面打印调试，如何使用cout及时刷新到屏幕上? 在C中我们经常这样使用： printf("Hello World "); fflush(stdout); 如果使用stl，我们可以这样使用： cout << "Hello World" << endl <...