首页 > python_2开发简单爬虫

python_2开发简单爬虫

 

 

 

 

2017年12月03日 16:43:01 独行侠的守望 阅读数:204 标签: python爬虫 更多

个人分类: Python

编辑

版权声明:本文为博主原创文章,转载请注明文章链接。 https://blog.csdn.net/xiaoanzi123/article/details/78700863

学习地址:http://www.imooc.com/learn/563 慕课网

课程须知

本课程是Python语言开发的高级课程1、Python编程语法;2、HTML语言基础知识;3、正则表达式基础知识;

老师告诉你能学到什么?

1、爬虫技术的含义和存在价值

2、爬虫技术架构

3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器

4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行

5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!

★第一章

课程介绍:

课程进行简单的爬虫讲解----不需要登录的静态网页抓取

1、爬虫简介

2、简单爬虫架构

3、URL管理器

4、网页下载器urllib2

5、网页解析器beautifulsoup

6、完整实例 爬虫百度百科

★第二章,

爬虫是什么 : 从一个url出发,自动访问他所关联的所有url,提取数据。

爬虫价值 : 爬取互联网数据为我所用,开发新产品提供更好的服务

 

 

★第三章

3-1 python简单爬虫架构

 

 

3-2  python简单爬虫架构 动态运行流程 【时序图】

★第四章  url管理器和实现方法

4-1  url管理

管理待抓取url结合  和  已经抓取的url集合  ,防止重复抓取和循环抓取

url管理器支持的功能 至少5个

4-2 url管理器的实现方式

目前有三种。

 

 

 

★第五章 网页下载器和  urllib2  模块  

5-1 网页下载器简介          将互联网上url对应的网页下载到本地的工具

 

 

 

python有哪些网页下载器?

 

5-2  urllib2  下载器网页的三种方法

①最简洁方法:把url传递给urllib2模块的urlopen方法   urllib2.urlopen(url)

 

 

 

 

 

三种方法功能依次更大更强

 

5.3 urllib2实例代码演示

ps:我安装的是Python3.5.2  ,使用第一种urllib2.urlopen()报错,搜索发现官方3.0版本已经把urllib2,urlparse等五个模块都并入了urllib中,也就是整合了,参考   http://blog.csdn.net/pythonniu/article/details/51855035  ,正确用法

  1. import urllib.request  
  2. url="http://www.baidu.com"  
  3. get=urllib.request.urlopen(url).read()  
  4. print(get)  

 

 

★第六章  网页解析器和  beautifulsoup  第三方模块

6.1网页解析器简介

①正则表达式  

②Python自带 html.parser

③第三方插件  beautifulsoup  强大,能使用② 和 ④

④第三方插件   lxml

 

①是模糊匹配,②③④是结构化解析。DOM树 ,熟悉吧๑乛◡乛๑

6.2beautifulsoup模块简介和安装

该模块属于Python第三方模块,用于从HTML或xml提取数据。

官网 http://www.crummmy.com/software/BeautifulSoup

在线安装 beautifulsoup模块,截图如下【前提:已经有pip】

6.3beautifulsoup语法

流程:HTML网页   →创建beautifulsoup对象(生成dom树)  →搜索节点(find_all 方法 和 find方法,可以按照  名称、属性、文字  来搜索)   → 访问节点名称、属性、文字

例子

代码如下:

 

 

6.4beautifulsoup实例测试

 

总结:课程教程是Python 2 版本,自己是3.x版本,总体还是从小白到 对python爬虫整体概况有所了解一点吧。

 

转载于:https://www.cnblogs.com/dxxdsw/p/10644765.html

更多相关:

  • 今天正式开始学爬虫,我看了你们的投票结果,为什么只有一位兄弟进行了投票,但选了个法语!! 我只写了几个明显的坑,你可是故意的?我要是写一个火星文,你是不是要选火星文!我虽然可怜,但也不能这么欺负我啊! 算了,回归正题,今天我们正式开始学爬虫。 教程在哪? 当然是我们伟大的CSDN啦! 唉唉唉唉唉唉唉!先别急着打,我给你们整来...

  • Python的WEB框架有Django、Tornado、Flask 等多种,Django相较与其他WEB框架其优势为:大而全,框架本身集成了ORM、模型绑定、模板引擎、缓存、Session等诸多功能。本文将以下方面带大家全面了解Django框架,笔者使用的版本为1.10.流程基本配置路由系统视图view模板Model中间件Form认证...

  • 我知道这个错误已经被讨论了很多,但似乎每种情况都有不同的原因。我使用下面的代码和selenium从一个网站提取一些数据,并在第二次调用浏览器.get(url)。在import openpyxl, osfrom selenium import webdriveros.chdir('C://Users/user/Documents')os...

  •   onReady(){// #ifdef H5// 初始化微信 let url = location.href.split("#")[0];configWxMp({debug: false,jsApiList: ["scanQRCode"],url: this.config.apiList.wxMpConfig,data: {ur...

  • wget -S "http:/192.168.0.102:8080/cache/lookup_url?url=http://www.dnion.com/"...

  • 首先说一下业务需求: 需要在当前各主流浏览器上从tab标签形式弹出一个页面,尽量不要以单独窗口弹出。 下面是网上搜集并修改、验证后的js代码,以备以后参阅。 function getUnionCookie(B) {var A = new RegExp(B + "=([^;]+)"), _ = A.exec(document....

  • 搜索引擎技术之概要预览前言    近些天在学校静心复习功课与梳理思路(找工作的事情暂缓),趁闲暇之际,常看有关搜索引擎相关技术类的文章,接触到不少此前未曾触碰到的诸多概念与技术,如爬虫,网页抓取,分词,索引,查询,排序等等,更惊叹于每一幅精彩的架构图,特此,便有记录下来的冲动,以作备忘。    本文从最主要的搜索引擎的概念谈起,到全...

  • 一些常用的页面属性获取: 网页可见区域宽:document.body.clientWidth; 网页可见区域高:document.body.clientHeight;    类似视口宽度   网页正文全文宽:document.body.scrollWidth; 网页正文全文高:document.body.scrollHeight;...

  •   网页抓取就是,我们想要从别人的网站上得到我们想要的,也算是窃取了,有的网站就对这个网页抓取就做了限制,比如百度   直接进入正题    1 //要抓取的网页地址 2 String urlStr = "http://**************/center"; 3 URL url = new URL(urlStr); 4...

  • 如何更有效WEB应用防火墙确保信息安全对于现代企业而言,信息资产就和企业其它电脑知识重要的资产一样都是非常具有价值的,应该被妥善加以保护并可被审核。但是信息系统面临着许多安全的威胁,因此只有对信息系统安全风险应加以管理,才能降低系统提供信息不及时、不完整与不正确等风险,而设置适当的策略控制及保存审核档案记录,还能方便便及时发现并追踪...