“百度搜索采集工具”的版本间的差异

来自JsRobot
跳转至: 导航搜索
处理
 
(未显示同一用户的14个中间版本)
第1行: 第1行:
 
==摘要==
 
==摘要==
       这个工具解决提取百度搜索结果获取企业网址以及电话和QQ和微信的问题。
+
       这个工具解决许多问题。
==展示==
+
      这个工具同时支持桌面百度和手机百度。
 
+
      这个工具可以提取百度搜索结果。
 +
      这个工具可以在采集过程中提取企业网址以及电话和QQ和微信,作为下一步网络营销的基础数据。
 +
      这个工具可以提取搜索排名序号,用于SEO关键词优化。
 
==背景==
 
==背景==
 
       大多数的业务员找客户还是通过百度搜索。
 
       大多数的业务员找客户还是通过百度搜索。
 
       通过百度搜索找到自己要找的企业,
 
       通过百度搜索找到自己要找的企业,
 
       然后进一步找到联系方式打电话。
 
       然后进一步找到联系方式打电话。
==需求==
+
==展示==
      可以输入关键词
+
    [[image:20160111_baidu_ui.gif]]<br>
      要求每次采集发现新的企业网址
+
    [[image:20160111_baidu_view_data.gif]]<br>
      支持关键词过滤无效网址
+
 
==功能==
 
==功能==
===输入===
+
===默认处理===
===输出===
+
      功能
===处理===
+
      从设置位置读取指定的关键词,
       模拟人工查询的方法输入关键词
+
      从设置位置读取采集的页数,
       获取查询结果
+
      生成采集任务,
       解析返回结果中的标题 内容 网址
+
      提取这些关键词搜索出来的结果,
       根据网址的域名进行网址过滤
+
      根据网址进行去重,
       根据网址的域名进行网址去重
+
      从一个文本文件读取过滤关键词,
       保存新发现的结果
+
      保存标题包含这些标题的结果,
 +
      解析结果内容,
 +
      提取第几页、第几条、标题、真实网址、正文、QQ、微信、电话、邮箱。
 +
 
 +
      设置
 +
      [[image:baidusousuov2_normal_setting.png]]
 +
      请在设置的地方设置修改关键词。
 +
      其他的设置参考后面的常规设置说明。
 +
 
 +
      展示
 +
      [[image:baidusousuov2_normal_ui.png]]
 +
 
 +
===批量处理===
 +
       功能
 +
      从一个文本文件读取一组关键词,
 +
      从设置位置读取采集的页数,
 +
       生成采集任务,
 +
       提取这些关键词搜索出来的结果,
 +
       根据网址进行去重,
 +
       从一个文本文件读取过滤关键词,
 +
       保存标题包含这些标题的结果,
 
       解析结果内容,
 
       解析结果内容,
       提取QQ 微信 电话 邮箱
+
      提取第几页、第几条、标题、真实网址、正文、QQ、微信、电话、邮箱。
 +
 
 +
      设置
 +
      [[image:baidusousuov2_patch_setting.png]]
 +
      请在设置的地方吧搜索词汇清单的文件路径修改为你的搜索词汇清单的文件路径。
 +
      其他的设置参考后面的常规设置说明。
 +
 +
      展示
 +
      [[image:baidusousuov2_patch_ui.png]]
 +
 
 +
==设置==
 +
      采集页数=2
 +
      采集搜索结果多少页内容。一个关键词在搜索引擎上的搜索结果有很多页。一般大家都是关心的前几页内容。
 +
 
 +
      桌面百度=1
 +
      搜索时是否提取桌面百度搜索的结果。
 +
      桌面搜索和手机搜索的结果是不一样的。
 +
      为1,表示提取桌面百度搜索结果,
 +
      为0,表示不提取桌面百度搜索结果内容
 +
 
 +
      手机百度=1
 +
      搜索时是否提取手机百度搜索的结果。
 +
      桌面搜索和手机搜索的结果是不一样的。
 +
      为1,表示提取手机百度搜索结果,
 +
      为0,表示不提取手机百度搜索结果内容
 +
 
 +
      历史去重=0
 +
      是否对以及搜索过的内容按照内容的网址进行去重。
 +
      如果你不希望下次搜索到上次以及搜索过的结果,你就可以打开这个开关。
 +
 
 +
      真实网址=1
 +
      在百度的结果中,有两个网址。
 +
      一个是百度搜索结果中直接显示的网址,不全。
 +
      一个是百度搜索结果所对应的真实网址。
 +
      一般这个开关一直保持打开打开就可以了。
 +
     
 +
       提取QQ=0
 +
      是否从搜索结果中提取QQ号,默认不提取,如果需要提取请设置为1
 +
      建议搜索词汇是 搜索词汇+QQ
 +
      搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
 +
 
 +
      提取手机=0
 +
      是否从搜索结果中提取手机号,默认不提取,如果需要提取请设置为1
 +
      建议搜索词汇是 搜索词汇+手机
 +
      搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
 +
 
 +
      提取座机=0
 +
      是否从搜索结果中提取座机号,,默认不提取,如果需要提取请设置为1
 +
      建议搜索词汇是 搜索词汇+座机
 +
      搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
 +
 
 +
      提取微信=0
 +
      是否从搜索结果中提取微信号,,默认不提取,如果需要提取请设置为1
 +
      建议搜索词汇是 搜索词汇+微信
 +
      搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
 +
 
 +
      提取邮箱=0
 +
      是否从搜索结果中提取邮箱,默认不提取,如果需要提取请设置为1
 +
      建议搜索词汇是 搜索词汇+邮箱
 +
      搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
 +
==使用==
 +
      [[image:20160111_baidu_ui_setting.gif]]
  
 
==备注==
 
==备注==

2016年12月1日 (四) 07:32的最新版本

摘要

     这个工具解决许多问题。
     这个工具同时支持桌面百度和手机百度。
     这个工具可以提取百度搜索结果。
     这个工具可以在采集过程中提取企业网址以及电话和QQ和微信,作为下一步网络营销的基础数据。
     这个工具可以提取搜索排名序号,用于SEO关键词优化。

背景

     大多数的业务员找客户还是通过百度搜索。
     通过百度搜索找到自己要找的企业,
     然后进一步找到联系方式打电话。

展示

    20160111 baidu ui.gif
20160111 baidu view data.gif

功能

默认处理

     功能
     从设置位置读取指定的关键词,
     从设置位置读取采集的页数,
     生成采集任务,
     提取这些关键词搜索出来的结果,
     根据网址进行去重,
     从一个文本文件读取过滤关键词,
     保存标题包含这些标题的结果,
     解析结果内容,
     提取第几页、第几条、标题、真实网址、正文、QQ、微信、电话、邮箱。
     设置
     Baidusousuov2 normal setting.png
     请在设置的地方设置修改关键词。
     其他的设置参考后面的常规设置说明。
     展示
     Baidusousuov2 normal ui.png

批量处理

     功能
     从一个文本文件读取一组关键词,
     从设置位置读取采集的页数,
     生成采集任务,
     提取这些关键词搜索出来的结果,
     根据网址进行去重,
     从一个文本文件读取过滤关键词,
     保存标题包含这些标题的结果,
     解析结果内容,
     提取第几页、第几条、标题、真实网址、正文、QQ、微信、电话、邮箱。
     设置
     Baidusousuov2 patch setting.png
     请在设置的地方吧搜索词汇清单的文件路径修改为你的搜索词汇清单的文件路径。
     其他的设置参考后面的常规设置说明。

     展示
     Baidusousuov2 patch ui.png

设置

     采集页数=2
     采集搜索结果多少页内容。一个关键词在搜索引擎上的搜索结果有很多页。一般大家都是关心的前几页内容。
     桌面百度=1
     搜索时是否提取桌面百度搜索的结果。
     桌面搜索和手机搜索的结果是不一样的。
     为1,表示提取桌面百度搜索结果,
     为0,表示不提取桌面百度搜索结果内容
     手机百度=1
     搜索时是否提取手机百度搜索的结果。
     桌面搜索和手机搜索的结果是不一样的。
     为1,表示提取手机百度搜索结果,
     为0,表示不提取手机百度搜索结果内容
     历史去重=0
     是否对以及搜索过的内容按照内容的网址进行去重。
     如果你不希望下次搜索到上次以及搜索过的结果,你就可以打开这个开关。
     真实网址=1
     在百度的结果中,有两个网址。
     一个是百度搜索结果中直接显示的网址,不全。
     一个是百度搜索结果所对应的真实网址。
     一般这个开关一直保持打开打开就可以了。
     
     提取QQ=0
     是否从搜索结果中提取QQ号,默认不提取,如果需要提取请设置为1
     建议搜索词汇是 搜索词汇+QQ
     搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
     提取手机=0
     是否从搜索结果中提取手机号,默认不提取,如果需要提取请设置为1
     建议搜索词汇是 搜索词汇+手机
     搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
     提取座机=0
     是否从搜索结果中提取座机号,,默认不提取,如果需要提取请设置为1
     建议搜索词汇是 搜索词汇+座机
     搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
     提取微信=0
     是否从搜索结果中提取微信号,,默认不提取,如果需要提取请设置为1
     建议搜索词汇是 搜索词汇+微信
     搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
     提取邮箱=0
     是否从搜索结果中提取邮箱,默认不提取,如果需要提取请设置为1
     建议搜索词汇是 搜索词汇+邮箱
     搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。

使用

     20160111 baidu ui setting.gif

备注

     由于无法把各个企业的官网的格式是千差万别的,
     无法调转到特定企业的官网去进一步获取联系方式
     这个是一个缺憾。