首页 > url获取网站信息不包含网页源文件内的标签_前嗅ForeSpider链接抽取应用场景及链接在源码的html标签里写脚本...

url获取网站信息不包含网页源文件内的标签_前嗅ForeSpider链接抽取应用场景及链接在源码的html标签里写脚本...

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程中,链接抽取的应用场景,以及链接在源码的html标签里写脚本的实战教程。具体内容如下:

一.应用场景

当需要手动添加链接时,可添加链接脚本。

在“链接脚本处”,可能用到的类为extractor 、result、url、grabDoc、dom。

二.链接在源码的html标签里

链接地址可在源码中查找到。在目标网页右键,选择“查看源代码”,键盘点击“ctrl+F”,查找目标链接所在位置。目标链接存在于标签中。

1.链接需要循环

场景:比如翻页等规律相同的一系列目标链接,存在于一个大的ul标签或者div标签里。

示例:获取CSDN首页文章列表链接。

34f36bda8546b7ab07c72c9481b2ce96.png
22321cd7ee466329a2e6629831e1b34b.gif

在该网页右键选择“查看源文件”,查找第一条链接的链接地址,定位目标数据位置。

2cbe9ffb96e5deb62702a340c93d4e5d.png
22321cd7ee466329a2e6629831e1b34b.gif

将该源码粘贴到notepad++中,选择语言为html,搜索目标数据的所在位置“ul”标签的id值。

ffbe70aa20f3ec742d92e4c50f36bdd9.png
22321cd7ee466329a2e6629831e1b34b.gif

由图可知,列表页文章链接位于每个li中的a标签的href中。

脚本实例:暂无。

2.链接不循环

场景:获取更多链接,链接不像翻页那页具有自增性的规律。

示例:获取该网站更多的招标公告信息。

e23a52b29ad41cee97c3fd667a6483fd.png
22321cd7ee466329a2e6629831e1b34b.gif

获取更多的招标公告信息,需要点击“更多”按钮。在该网页右键选择“查看源文件”,定位链接所在位置。

4817a8810e4fbc892354113d94fe6e7f.png
22321cd7ee466329a2e6629831e1b34b.gif

因标签名,和父级

的class属性都在多处存在,因此需要再向上查找节点,直到id为tab2-list的

脚本实例:

​​​​​​​var div = DOM.FindId("tab2-list");//先查找divvar a = DOM.FindClass("more

更多相关:

  • 问题 项目中需要链接多个静态库,在编译的时候报错如下 sdi_io.cpp:(.text._ZN13sdi_H264EncIO7DataPopEPm+0x30):对‘H264ENC_StatusGet(H264ENC_Status_t&)’未定义的引用 可能原因是符号确实没有定义,而本文出现这个问题的原因是,链接的静态库有前后...

  • 上一篇文章里大概描述linux下静态链接库的编译与使用,下面讲动态链接库的编译与使用方法。 1. 什么是动态链接库     所谓动态链接库,是指编译的时候不会把程序引用到的库插入到执行程序里,而是在执行时候才会去加载相关的库,所有用到此库的程序可以共享一份代码。     这样带来的好处是可执行程序所占的空间变小了,同时,如果库需要升...

  • 人们总喜欢在帖子中加上各种有用的URL链接或Email地址。而笔者当初设计时没有考虑到这一点,使得这些URL链接或Email地址只能以文字的形式而并不是以超链接的形式显示,其它浏览帖子的人还必须把这些URL链接拷贝到浏览器中或把Email地址拷贝到Outlook中才能转到相应的链接地址或发送电子邮件到相应的Email地址。   发现这...

  • iPhone上的Safari(还有些webkit android手机浏览器)会自动对看起来像是电话号码的数字串(包括已经加入连字符或括号格式化过的)添加电话链接,点击之后会询问用户是否想要拨打该号码。如果你不希望开启这个自动识别,可以将它关闭:

    python中利用lxml模块解析xml文件报错XMLSyntaxError: Opening and ending tag mismatch

    今天在代码中第一次使用lxml解析xml文件时出错了, XMLSyntaxError: Opening and ending tag mismatch: keyEffectiveDate line 21 and keyEffectiveData, line 21, column 80 截图如下 而我的xml文件是这样的...

  • EL语法:${ } EL取值来自于作用域对象 1.如何从指定作用域取值(默认从最小作用域取值)   pageScope、requestScope、sessionScope、applicationScope   ${pageScope.xxx }--- ${requestScope.xxx} --- ${sessionScope.xx...

  • 超文本标记语言 (Hyper Text Markup Language,HTML)不是一种编程语言,而是一种标记语言,用一套标记标签描述网页 HTML 标记标签又被称为 HTML 标签(HTML Tag),它是由尖括号包围的关键词,一般情况下成对出现,其中第一个标签是开始标签,第二个标签是结束标签 还需要清楚的一个概念是 HTML...

  • 参考:http://www.cnblogs.com/liwenzhou/p/7988087.html HTML介绍 Web服务本质  import socketsk = socket.socket()sk.bind(("127.0.0.1", 8080)) sk.listen(5)while True:conn, addr...

  • thinkphp5内置标签 知道内置标签怎么用,查手册的时候好查 却功能的时候在里面找着来用 内置标签一览 1 内置标签 2 3 变量输出使用普通标签就足够了,但是要完成其他的控制、循环和判断功能,就需要借助模板引擎的标签库 4 功能了,系统内置标签库的所有标签无需引入标签库即可直接使用。 5 内置标签包括: 6 标...

  • 点云PCL免费知识星球,点云论文速读。 标题:MoreFusion: Multi-object Reasoning for 6D Pose Estimation from Volumetric Fusion 作者:Kentaro Wada, Edgar Sucar, Stephen James 星球ID:wl_华科_点云处理_目...

  • (1)跟踪器的建立:对新产生的目标,且宽(高)大于5时,建立跟踪器 (2)Kalman滤波:用Kalman滤波器对目标当前的方位、大小做出预测   目标特征矢量采用(x, y, dx, dy, w, h)六维矢量,观测矢量为(x, y, w, h)    系统状态转移矩阵:                      1, 0, 0, ...