
大家好,基于我是框架菜鸟哥!
今天来跟大家分享一下,博评基于Scrapy的论爬微博爬虫应该怎么写。
之前分享过一个Requests对微博评论的虫实爬虫,已经对页面进行了全面的基于分析,本文主要注重对数据采集、框架存储和文件配置进行分析讲解。博评
首先,虫实我们需要对Scrapy框架有一个简单的基于了解,不然在你书写代码的框架时候会非常的麻烦。
使用pip对Scrapy进行安装,博评代码如下:
pip install scrapy安装好Scrapy框架之后,论爬我们需要通过终端,虫实来创建一个Scrapy项目,命令如下:
scrapy startproject weibo创建好后的项目结构,如下图:

这里我们来简单介绍一下结构中我们用到的部分的作用,有助于我们后面书写代码。
spiders是存放爬虫程序的文件夹,将写好的爬虫程序放到该文件夹中。香港云服务器items用来定义数据,类似于字典的功能。settings是设置文件,包含爬虫项目的设置信息。pipelines用来对items中的数据进行进一步处理,如:清洗、存储等。
经过上面的简单介绍,我们现在对Scrapy框架有了简单的了解,下面我们开始写数据采集部分的代码。
首先,我们对数据存储的网页进行观察,方便我们对获取数据进行定义

通过对网页中数据存储的形式进行观察后,items.py中对数据的定义方式为:
data = scrapy.Field()接下来我们在spiders文件夹里面创建一个weibo.py爬虫程序用以书写请求的爬虫代码

代码如下:
import scrapy class WeiboSpider(scrapy.Spider): name = weibo #用于启动微博程序 allowed_domains = [m.weibo.cn] #定义爬虫爬取网站的域名 start_urls = [https://m.weibo.cn/comments/hotflow?id=4700480024348767&mid=4700480024348767&max_id_type=0] #定义起始网页的网址 for i in res[data][data]: weibo_item = WeiboItem() weibo_item[data] = re.sub(r<[^>]*>, , i[text]) # start_url = [https://m.weibo.cn/comments/hotflow?id=4700480024348767&mid=4700480024348767&+str(max_id)+&max_id_type=0] yield weibo_item #将数据回传给items学过Requests对微博评论进行爬虫的朋友应该知道,微博评论的URL构造方式,这里我直接展示构造代码:
max_id_type = res[data][max_id_type] if int(max_id_type) == 1: new_url = https://m.weibo.cn/comments/hotflow?id=4700480024348767&mid=4700480024348767&max_id= + str( max_id) + &max_id_type=1 else: new_url = https://m.weibo.cn/comments/hotflow?id=4700480024348767&mid=4700480024348767&max_id= + str( max_id) + &max_id_type=0光爬取下来数据是云服务器提供商不行的,我们还需要对数据进行存储,这里我采用的是csv文件,来对评论数据进行存储,代码如下:
class CsvItemExporterPipeline(object): def __init__(self): # 创建接收文件,初始化exporter属性 self.file = open(text.csv,ab) self.exporter = CsvItemExporter(self.file,fields_to_export=[data]) self.exporter.start_exporting()光写上面的代码是无法爬取到评论的,因为我们还没有对整个程序进行有效的配置,下面我们就在settings.py里面进行配置。
需要对robts协议的遵守进行修改,如果我们遵循网页的robots协议的话,那无法进行爬取,代码如下:
# Obey robots.txt rules ROBOTSTXT_OBEY = False我们知道,想要爬取微博评论,需要带上自己的cookie用以信息校验,因为我们的cookie是在headers中包裹着的,所以我们需要将COOKIES_ENABLED改为False,代码如下:
# Disable cookies (enabled by default) COOKIES_ENABLED = False想要进行数据存储,还需要在配置中,打开通道,IT技术网用以数据传输,代码如下:
# Configure item pipelines # See https://docs.scrapy.org/en/latest/topics/item-pipeline.html ITEM_PIPELINES = { weibo.pipelines.CsvItemExporterPipeline: 1, weibo.pipelines.WeiboPipeline: 300, }我们在spiders同级的的目录下创建一个wb_main.py文件,便于我们在编辑器中启动程序,代码如下:
from scrapy import cmdline #导入cmdline模块,可以实现控制终端命令行。 cmdline.execute([scrapy,crawl,weibo]) #用execute()方法,输入运行scrapy的命令。本文详细的介绍了,如何用Scrapy框架来对微博评论进行爬取,建议大家动手实操一下,便于理解。本文仅供学习参考,不做它用。
相关文章:
服务器租用益华科技IT技术网源码库源码下载IT资讯网亿华云企商汇香港云服务器益强编程堂汇智坊益华科技益强科技益强科技全栈开发亿华灵动极客编程亿华云计算多维IT资讯益强数据堂益强智未来益强编程舍编程之道IT资讯网益强前沿资讯亿华互联益强智囊团云智核益强资讯优选益强IT技术网运维纵横技术快报科技前瞻码上建站益华IT技术论坛亿华云码力社智能时代思维库益华科技创站工坊
0.7896s , 11693.546875 kb
Copyright © 2025 Powered by 基于Scrapy框架的微博评论爬虫实战,亿华互联 滇ICP备2023000592号-16