“百度搜索采集工具”的版本间的差异

来自JsRobot
跳转至: 导航搜索
第19行: 第19行:
 
===默认处理===
 
===默认处理===
 
       功能
 
       功能
       模拟人工查询的方法输入关键词
+
       从设置位置读取指定的关键词,
       获取查询结果
+
       从设置位置读取采集的页数,
       解析返回结果中的标题 内容 网址
+
       生成采集任务,
       根据网址的网址进行去重
+
       提取这些关键词搜索出来的结果,
       保存新发现的结果
+
       根据网址进行去重,
 +
      从一个文本文件读取过滤关键词,
 +
      保存标题包含这些标题的结果,
 
       解析结果内容,
 
       解析结果内容,
       提取第几页、第几条、标题、网址、正文、QQ、微信、电话、邮箱。
+
       提取第几页、第几条、标题、真实网址、正文、QQ、微信、电话、邮箱。
 +
 
  
 
       设置
 
       设置
 +
 
===批量处理===
 
===批量处理===
 
       功能
 
       功能
第39行: 第43行:
 
       解析结果内容,
 
       解析结果内容,
 
       提取第几页、第几条、标题、真实网址、正文、QQ、微信、电话、邮箱。
 
       提取第几页、第几条、标题、真实网址、正文、QQ、微信、电话、邮箱。
 +
 
       设置
 
       设置
 +
 
==设置==
 
==设置==
 
       采集页数=2
 
       采集页数=2
桌面百度=1
+
      采集搜索结果多少页内容。一个关键词在搜索引擎上的搜索结果有很多页。一般大家都是关心的前几页内容。
手机百度=1
+
 
历史去重=0
+
      桌面百度=1
真实网址=1
+
      搜索时是否提取桌面百度搜索的结果。
提取QQ=0
+
      桌面搜索和手机搜索的结果是不一样的。
提取手机=0
+
      为1,表示提取桌面百度搜索结果,
提取座机=0
+
      为0,表示不提取桌面百度搜索结果内容
提取微信=0
+
 
提取邮箱=0
+
      手机百度=1
 +
      搜索时是否提取手机百度搜索的结果。
 +
      桌面搜索和手机搜索的结果是不一样的。
 +
      为1,表示提取手机百度搜索结果,
 +
      为0,表示不提取手机百度搜索结果内容
 +
 
 +
      历史去重=0
 +
      是否对以及搜索过的内容按照内容的网址进行去重。
 +
      如果你不希望下次搜索到上次以及搜索过的结果,你就可以打开这个开关。
 +
 
 +
      真实网址=1
 +
      在百度的结果中,有两个网址。
 +
      一个是百度搜索结果中直接显示的网址,不全。
 +
      一个是百度搜索结果所对应的真实网址。
 +
      一般这个开关一直保持打开打开就可以了。
 +
     
 +
      提取QQ=0
 +
      是否从搜索结果中提取QQ号,默认不提取,如果需要提取请设置为1
 +
      建议搜索词汇是 搜索词汇+QQ
 +
      搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
 +
 
 +
      提取手机=0
 +
      是否从搜索结果中提取手机号,默认不提取,如果需要提取请设置为1
 +
      建议搜索词汇是 搜索词汇+手机
 +
      搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
 +
 
 +
      提取座机=0
 +
      是否从搜索结果中提取座机号,,默认不提取,如果需要提取请设置为1
 +
      建议搜索词汇是 搜索词汇+座机
 +
      搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
 +
 
 +
      提取微信=0
 +
      是否从搜索结果中提取微信号,,默认不提取,如果需要提取请设置为1
 +
      建议搜索词汇是 搜索词汇+微信
 +
      搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
 +
 
 +
      提取邮箱=0
 +
      是否从搜索结果中提取邮箱,默认不提取,如果需要提取请设置为1
 +
      建议搜索词汇是 搜索词汇+邮箱
 +
      搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
 
==使用==
 
==使用==
 
       [[image:20160111_baidu_ui_setting.gif]]
 
       [[image:20160111_baidu_ui_setting.gif]]

2016年12月1日 (四) 07:07的版本

摘要

     这个工具解决许多问题。
     这个工具同时支持桌面百度和手机百度。
     这个工具可以提取百度搜索结果。
     这个工具可以在采集过程中提取企业网址以及电话和QQ和微信
     这个工具可以提取搜索排名序号,用于SEO关键词优化。

展示

    20160111 baidu ui.gif
20160111 baidu view data.gif

背景

     大多数的业务员找客户还是通过百度搜索。
     通过百度搜索找到自己要找的企业,
     然后进一步找到联系方式打电话。

需求

     可以输入关键词
     要求每次采集发现新的企业网址
     支持关键词过滤无效网址

功能

默认处理

     功能
     从设置位置读取指定的关键词,
     从设置位置读取采集的页数,
     生成采集任务,
     提取这些关键词搜索出来的结果,
     根据网址进行去重,
     从一个文本文件读取过滤关键词,
     保存标题包含这些标题的结果,
     解析结果内容,
     提取第几页、第几条、标题、真实网址、正文、QQ、微信、电话、邮箱。


     设置

批量处理

     功能
     从一个文本文件读取一组关键词,
     从设置位置读取采集的页数,
     生成采集任务,
     提取这些关键词搜索出来的结果,
     根据网址进行去重,
     从一个文本文件读取过滤关键词,
     保存标题包含这些标题的结果,
     解析结果内容,
     提取第几页、第几条、标题、真实网址、正文、QQ、微信、电话、邮箱。
     设置

设置

     采集页数=2
     采集搜索结果多少页内容。一个关键词在搜索引擎上的搜索结果有很多页。一般大家都是关心的前几页内容。
     桌面百度=1
     搜索时是否提取桌面百度搜索的结果。
     桌面搜索和手机搜索的结果是不一样的。
     为1,表示提取桌面百度搜索结果,
     为0,表示不提取桌面百度搜索结果内容
     手机百度=1
     搜索时是否提取手机百度搜索的结果。
     桌面搜索和手机搜索的结果是不一样的。
     为1,表示提取手机百度搜索结果,
     为0,表示不提取手机百度搜索结果内容
     历史去重=0
     是否对以及搜索过的内容按照内容的网址进行去重。
     如果你不希望下次搜索到上次以及搜索过的结果,你就可以打开这个开关。
     真实网址=1
     在百度的结果中,有两个网址。
     一个是百度搜索结果中直接显示的网址,不全。
     一个是百度搜索结果所对应的真实网址。
     一般这个开关一直保持打开打开就可以了。
     
     提取QQ=0
     是否从搜索结果中提取QQ号,默认不提取,如果需要提取请设置为1
     建议搜索词汇是 搜索词汇+QQ
     搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
     提取手机=0
     是否从搜索结果中提取手机号,默认不提取,如果需要提取请设置为1
     建议搜索词汇是 搜索词汇+手机
     搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
     提取座机=0
     是否从搜索结果中提取座机号,,默认不提取,如果需要提取请设置为1
     建议搜索词汇是 搜索词汇+座机
     搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
     提取微信=0
     是否从搜索结果中提取微信号,,默认不提取,如果需要提取请设置为1
     建议搜索词汇是 搜索词汇+微信
     搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
     提取邮箱=0
     是否从搜索结果中提取邮箱,默认不提取,如果需要提取请设置为1
     建议搜索词汇是 搜索词汇+邮箱
     搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。

使用

     20160111 baidu ui setting.gif

备注

     由于无法把各个企业的官网的格式是千差万别的,
     无法调转到特定企业的官网去进一步获取联系方式
     这个是一个缺憾。