当前位置:电脑软件 > 网络软件 > 浏览辅助 > GooSeekerv8.8.0

GooSeekerv8.8.0

大小:30MB语言:简体中文类别:浏览辅助

类型:国产软件授权:免费软件时间:2019/8/7

官网:

环境:Windows10,Windows8,Windows7,WinVista,WinXP

安全检测:无插件360通过腾讯通过金山通过瑞星通过

本地下载

GooSeeker也叫集客搜网络爬虫是一款集采集网页文字、图片、表格、超链接等多种网页元素与一身的网络爬虫工具。它的抓取不限深度和广度,网页和内容都可以采集,软件支持集成化图形界面、抓取规则自动生成、随机延迟、抓取结果本地存储、高仿真模拟点击等功能。而且这款网络爬虫工具还可以很好的帮助用户轻松的抓取网页上自己想要抓取的网页数据。喜欢的朋友赶快来下载哦!
GooSeeker

功能说明

1、集成化图形界面
包括网页结构窗口、工作台、显示窗口等子窗口。选取被抓取内容时,三个子窗口联动,并显示HTML节点的重要属性
2、抓取规则自动生成
可以指定抓取内容,定义抓取结果存放结构(整理箱),然后将网页内容分别映射给整理箱中的抓取内容,MS谋数台即可自动生成抓取规则
3、原始网页内容纠错
网页的发布者在写网页的时候可能存在语法和词法错误,只要是火狐浏览器能打开的,都能定义抓取规则并进行抓取
4、防屏蔽抓取
有些目标网站可能根据点击行为特征屏蔽网络爬虫的过度访问,集搜客GooSeeker采用技术手段尽量避免被屏蔽
5、清理运行状态
使用ADSL等动态分配地址的部署方式,定期拨号更换IP地址,也可在火狐浏览器上清除cookie和缓存

使用教程

一、定义主题名
1、打开MS谋数台,在网址处粘贴需要采集数据的样例网址,按回车键等待页面加载。

2、然后点击“弹出工作台”,然后就会出现人下图所示的页面。

3、 在主题名处填写规则主题名,由于主题名不能重复,所以需要点击查重按钮查看当前主题名是否可用,弹出窗显示“该名可以使用”时就可以继续下面操作,否则需要更改当前主题名直至不重复。

二、定义规则
1、点击要采集的内容,这里点导航栏,可以看到导航栏变成黄底,表示被选中的信息。

2、再点击一次,会弹出一个输入框,输入抓取内容名称,然后点击“勾号”。

3、输入第一个抓取内容时,会弹出创建整理箱的弹窗,输入整理箱名称后,点击确认。

4、弹出工作台就可以看到工作台页面已经建立了整理箱抓取内容。

5、点击测试按钮,弹出提示框,勾选关键内容是为了给爬虫执行采集提供判断标志,对于页面一定会出现的内容可以勾上"关键内容"。

6、 这里给商品名勾选关键内容。

7、 点击测试,可以看到下方输出信息会显示采集内容。可以看到目前采集到的只是一个商品的信息,要把整个页面上结构相同的商品信息都采集下来,就需要做样例复制。

三、样例复制
1、在创建规则工作台,点击列表,勾选启用样例复制。注意:只有容器节点才能启用样例复制。

2、选择第一个样例节点,右击-样例复制映射-第一个。

3、同理对第二个商品做样例复制。

4、可以看到样例复制处显示样例复制的编号,再点击测试,可以看到输出信息已经有多个商品信息。

5、点击右上方存规则,再点击爬数据。

6、可以看到DS打数机在运行采集数据。
四、查看采集结果文件
数据以XML格式 默认存放在C盘用户文件夹的DataScraperWorks 中,可通过DS打数机的“文件-存储路径”来自定义结果文件的存储路径。、
五、xml转excel
每采集一个网页,就会得到一个xml数据文件,如果是连续翻页采集,那么每翻一页都会生成一个xml文件,通过把xml转为excel,可以合并到一个excel文件中,以供进一步的处理。

软件特色

1、直观标注采数据
不用程序思维,不要技术基础,点击想要的内容,软件自动管理所选内容,自动放进整理箱

2、可视化免编程
操作简单,完全可视化操作,无需编程基础,熟悉电脑操作即可轻松掌握
3、模板资源套用
在抓取规则的详情页面,您可以仔细考察一个规则的抓取结果是否满足您的需要,如果满足,只需点击“下载”按钮,即可在会员中心一键启动集搜客网络爬虫,抓取到你想要的数据
4、通用网络爬虫
采用功能强大的火狐浏览器内核,所见即所得
5、会员互助抓取
这是爬虫群并行抓取的一种特殊情形,利用这个功能,可以低成本快速汇集海量数据
6、不限深度不限广度
以尽量低的成本获得数据,而且只获取需要的网页内容
7、抓取指数图表
集搜客网络爬虫具有强大的图表数据抓取能力,而且提供一个开发者扩展接口,允许技术基础高的用户用Javascript自定义更高级的网络爬虫动作
8、本地化存储保护隐私
把所有采集结果数据直接存储在用户个人电脑上,便于用户对采集结果数据做各种处理
9、自动登录验证码识别
具有自动登录功能,只需要设置相关参数,就可以控制集搜客网络爬虫定期自动登录相应的账号
10、定时自启动采集
可以设置定时自动采集,完全无需人工干预,自动采集最新数据,自动实现持续增量数据采集
11、爬虫群并行抓取
集搜客的并行抓取功能,一方面可以帮助个人解决效率低下的问题,另一方面也促进社区闲散资源的整合利用
12、一键“集搜”启动多爬虫抓取数据
可选择分布式采集的方式,把采集任务分配到多台电脑上执行
13、手机网站数据抓取
使用软件采集手机网站数据和采用PC网站数据同样简单, 可视化定义抓取规则的过程完全一样

常见问题

一、网络爬虫状态错误,无法从FAILED状态启动爬虫?
这个报错是说服务器连接失败,失败的时候显示为红色状态,正常是绿色
二、保存信息结构描述文件失败:not writable?
1、主题名重复了,换个主题名就行 
1、“爬虫路线”工作台上,如果有下级线索,也要注意不能与别人重名。都有“查重”按钮,可以检查一下
三、为什么谋数台又打不开了,打数机能打开?
1、火狐自动升级后跟爬虫不配套,就不能正常使用了,所以,安装火狐的时候要去工具菜单->选项->高级->更新里设置不检查更新
2、下载了更高版本或中国版火狐,里面安装很多插件,可能影响到爬虫的正常使用
3、电脑安装了360等杀毒软件,会悄悄破坏其他程序,只需禁止其安全防护功能
四、如何设置时间、
这个网页一定打开DS打数机的滚屏功能,要做下面设置
1、配置-》全屏显示,让窗口尽量大
2、配置-》滚屏参数,两个参数设置成10,2
注意:DS打数机的超时时常不要修改

更新日志

v8.8.0(2019-08-07)
1、解决Mac版菜单失灵问题
2、连续打码增强成高仿真输入
3、连续打码处理图片功能增加适应性
下载地址

有问题?点击报错+投诉+提问

网友评论

0条评论

评分:
captcha 评论需审核后才能显示

实时热词