网络工具 | 5.0M
语言:简体
4 .0
应用简介
一个超强大的网站文章收集器。这个软件的全称是Red Leaf Article Collector,英文名称是Fast_Spider。它是一个蜘蛛爬虫程序。用于从指定网站收集海量重要文章。它会直接丢弃垃圾网页信息,只保存相关信息。阅读和浏览有价值的文章,并自动执行HTM-TXT转换。
一个超强大的网站文章收集器。该软件的全称是红叶文章采集器,英文名称是Fast_Spider。它是一个蜘蛛类程序,用于从指定网站收集海量的重要文章。它会直接丢弃垃圾网页信息,只保存可以阅读的内容。精选有价值、有浏览价值的文章,自动进行HTM-TXT转换。本软件为绿色软件,解压后即可使用!
软件特点
(1)本软件采用北大天网MD5指纹去重算法,不会再重复保存相似、相同的网页信息。
(2)收集信息的含义:[[HT]]代表网页标题,[[HA]]代表文章标题,[[HC]]代表10个权重关键词,[[UR]]代表网页中的图像链接,[[TXT]]后面是正文。
(3)Spider性能:本软件开启300个线程,保证采集效率。压力测试收集了100万篇精华文章。以普通网民联网的电脑为参考标准,一台电脑一天可以浏览200万个网页,收集20万篇精华文章。只需5天,即可收集100万篇必备文章。完全的。
(4)正式版与免费版的区别在于,正式版允许将收集到的精华文章数据自动保存为ACCESS数据库。购买正式版请联系QQ(970093569)。
如何操作
(1)使用前,您必须确保您的计算机能够连接到网络,并且防火墙没有阻止本软件。
(2) 运行SETUP.EXE和setup2.exe安装操作系统system32支持库。
(3) 运行spider.exe,输入URL条目,先点击“手动添加”按钮,然后点击“开始”按钮开始采集。
防范措施
(1)爬取深度:填写0表示爬取深度不限制;填写3 以捕获第三层。
(2) 普通蜘蛛模式与分类蜘蛛模式的区别:假设URL入口为“http://youxi.baidu.com/”,如果选择普通蜘蛛模式,则“baidu.com”中的每个网页都会被穿越;如果选择分类蜘蛛模式,则只遍历“youxi.baidu.com”中的每个网页。
(3)“从MDB导入”按钮:从TASK.MDB批量导入URL条目。
(4)本软件采集的原则是不跨站。例如,如果入口是“http://youxi.baidu.com/”,则只会抓取百度站点内的内容。
(5)本软件在采集过程中,偶尔会弹出一个或多个“错误对话框”。请忽略他们。如果关闭“错误对话框”,采集软件就会挂起。
(6)用户如何选择采集主题:比如要采集“库存”文章,只需将那些“库存”网站作为URL入口即可。
热门攻略