分布式爬虫系统架构设计

发布时间:2020-12-31 14:36:46编辑:文明阅读(925)

    分布式爬虫系统架构设计

    修订历史

    版本号

    作者

    内容提要

    发布日期

    0.1.0

    文明

    设计文档

    2020年12月31日 10:55:28





    1 前情概述


    1.1 编写目的

    结合目前爬虫实际情况,结合分布式微服务概念,推出的一个新的,分布式爬虫系统架构设计。

    1:提高采集效率

    2:提供采集成功率

    3:为整站采集,平台选品打基础

    在分布式系统中,所有的服务器,框架,接口等,可以理解成动态资源。

    由于系统的复杂性,编写该文档方便项目经理、开发人员、测试人员更好了解系统的技术点和技术架构。


    1.2 程序框架介绍


    名称

    版本号

    描述

    PHP

    7.2

    编程语言

    swoole

    4.4.5

    协程扩展

    python

    3.8

    编程语言

    easyswoole

    3.3.2

    PHP协程框架

    flask

    1.1.2

    微服务应用框架

    SCRAPY

    2.3

    爬虫框架


    1.3 服务器介绍


    名称

    是否支持K8S分布式扩展伸缩

    系统

    描述

    国内版服务器

    centos7

    4CPU , 内存8GB硬盘 100GB

    elasticsearch服务器

    centos7

    4CPU , 内存8GB硬盘 100GB

    redis


    阿里云


    polardb


    阿里云



    2 系统架构

    2.1 优化设计图


    采集优化 (分布式爬虫系统部署).png

    2.2 系统垂平架构图

    系统架构图 (2).png


    爬虫项目架构图.png


    2.3 业务流程

    爬虫业务流程图.png


    关键字爬虫

    还没有小伙伴评论,快来抢沙发啦~~!