请选择 进入手机版 | 继续访问电脑版
取消
搜索
分享到

蜘蛛池环境需要以及搭建说明

时间:发表于 2019-05-09 13:57:37 阅读:38 回复:0

74

主题

74

帖子

1027

积分

专栏作家

Rank: 9Rank: 9Rank: 9

H币
68
积分
1027
在线时间
59 小时
蜘蛛池环境需要以及搭建说明


一、需要以下几个东西,缺一不可。


1、蜘蛛池主程序


2、新闻标题采集器


3、无规则采集器(采集内容和图片)


4、php环境包(护卫神5安装包)


5、IIS的扩展(URL重写扩展)


二、安装IIS工具


打开服务器管理器-角色-添加角色(添加web服务器 iis)安装。


三、安装php安装包


点击护卫神.php安装包,(需要注意的是:安装过程只,只需勾选安装PHP())即可,最后完成安装。


四、URL重写扩展


安装URL重写扩展    打开iis管理器,点击网站-URL重写。


如何设置蜘蛛池


一、将蜘蛛池主程序和两个采集器放在D盘,解压蜘蛛池主程序,新建采集文件夹caiji(里面放两个采集器)


二、添加网站


为蜘蛛池主程序添加一个网站,设置网站名称,以及网站路径,其余不设置。


打开-应用程序池,找到主程序,点击右边 高级设置,启用32位应用程序,选择True 打开启用,(默认是关闭)意味着是兼容32位的应用程序。


点击绑定,(网站绑定域名)将服务器ip展示出来 复制 (无需操作)


三、添加伪静态规则


打开URL重写,添加伪静态规则


正则表达式写法


[0-9a-zA-Z-_]+_[0-9a-zA-Z-_]+_[0-9a-zA-Z-_]+_[0-9a-zA-Z-_]+/


添加条件


{REQUEST_FILENAME}


设置两个条件,分别是(不是一个文件)  (不是目录)


操作类型


重写URL


/isapi.php


四、设置采集软件


解压2个采集器,随后,在无规则采集器文件夹里新建cache文件夹,(起到缓存作用,是防止重复采集)


五、设置adminconfig.txt


1、设置无规则采集器


段落和图片路径


段落地址=d:\kulouxiasz\qq2477962239\juzi2


图片地址=d:\kulouxiasz\kulouimage


提示:只需采集段落文章,其余不需要使用,设置为=假。(真:表示执行,假:表示不执行)


2、执行无规则采集器


打开增加网站, 增加需要采集的网站域名(多行域名)


设置挖掘数据深度,设置往右(最深度)挖掘。 最后点击文章监控。


如何查看在抓取数据,路径:d:\\kulouxiasz\kulouxiaimage (这里可以查询数据的抓取)


【无规则采集器,每隔1-2天需要重启一次。标题采集器无需重启。】


3、设置标题采集器


标题存放路径修改为: \qq2477962239\juzi


选择“循环挂机” 300秒  9000数量   最后确定 采集


六、如果设置蜘蛛链接接口


路径:d:\kulouxiasz\qq2477962239\spider\spider.txt


在spider.txt文件中放入你要引蜘蛛的域名。

免费投稿邮箱:ah@aihuw.com
回复
使用道具 举报
快速回复
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

发私信

TA 的相关文章

    网传史玉柱被“带走”,史玉柱称开总结会
    罗皮网传史玉柱被“带走”,史玉柱称开总结会
    4月24日晚上,有网友爆料称巨人网络董事长
    北京麦当劳吃出羽毛被食药监调查
    罗皮北京麦当劳吃出羽毛被食药监调查
    近日,北京一周女士在北京广顺北餐厅麦当劳
    繁殖侠站群URL重写说明
    曾光红繁殖侠站群URL重写说明
    URL重写说明 正则表达式写法 测试模式
    【天天服务器ip客户端】自动切换ip拨号软件使用说明
    曾光红【天天服务器ip客户端】自动切换ip拨号软件
    【天天服务器ip客户端】自动切换ip拨号软件
    网易食堂将收费被证实为谣言
    罗皮网易食堂将收费被证实为谣言
    据爱虎网小编表示,近日有网友在某社交平台

    爱虎网 原创出品

    www.aihuw.com 成立于2018年10月15日

    在线客服
    QQ 5700453
    客服电话
    13620043331
    官方微信
    发布 快速回复 返回顶部 返回列表