更改

百度搜索采集工具

添加3,256字节, 2016年12月1日 (四) 05:32
无编辑摘要
==摘要==
这个工具解决提取百度搜索结果获取企业网址以及电话和QQ和微信的问题。这个工具解决许多问题。==展示== 这个工具同时支持桌面百度和手机百度。[[image:20160111_baidu_ui.gif]]<br> 这个工具可以提取百度搜索结果。[[image:20160111_baidu_view_data.gif]]<br> 这个工具可以在采集过程中提取企业网址以及电话和QQ和微信,作为下一步网络营销的基础数据。 这个工具可以提取搜索排名序号,用于SEO关键词优化。
==背景==
大多数的业务员找客户还是通过百度搜索。
通过百度搜索找到自己要找的企业,
然后进一步找到联系方式打电话。
==需求展示== 可以输入关键词 [[image:20160111_baidu_ui.gif]]<br> 要求每次采集发现新的企业网址 支持关键词过滤无效网址 [[image:20160111_baidu_view_data.gif]]<br>
==功能==
===默认处理===
模拟人工查询的方法输入关键词功能 获取查询结果从设置位置读取指定的关键词, 解析返回结果中的标题 内容 网址从设置位置读取采集的页数, 根据网址的网址进行去重生成采集任务, 保存新发现的结果提取这些关键词搜索出来的结果, 根据网址进行去重, 从一个文本文件读取过滤关键词, 保存标题包含这些标题的结果,
解析结果内容,
提取第几页、第几条、标题、网址、正文、QQ、微信、电话、邮箱。提取第几页、第几条、标题、真实网址、正文、QQ、微信、电话、邮箱。  设置 [[image:baidusousuov2_normal_setting.png]] 请在设置的地方设置修改关键词。 其他的设置参考后面的常规设置说明。  展示 [[image:baidusousuov2_normal_ui.png]] 
===批量处理===
功能
从一个文本文件读取一组关键词,
从设置位置读取采集的页数,
提取第几页、第几条、标题、真实网址、正文、QQ、微信、电话、邮箱。
设置
[[image:baidusousuov2_patch_setting.png]]
请在设置的地方吧搜索词汇清单的文件路径修改为你的搜索词汇清单的文件路径。
其他的设置参考后面的常规设置说明。
展示
[[image:baidusousuov2_patch_ui.png]]
 
==设置==
采集页数=2
采集搜索结果多少页内容。一个关键词在搜索引擎上的搜索结果有很多页。一般大家都是关心的前几页内容。
 
桌面百度=1
搜索时是否提取桌面百度搜索的结果。
桌面搜索和手机搜索的结果是不一样的。
为1,表示提取桌面百度搜索结果,
为0,表示不提取桌面百度搜索结果内容
 
手机百度=1
搜索时是否提取手机百度搜索的结果。
桌面搜索和手机搜索的结果是不一样的。
为1,表示提取手机百度搜索结果,
为0,表示不提取手机百度搜索结果内容
 
历史去重=0
是否对以及搜索过的内容按照内容的网址进行去重。
如果你不希望下次搜索到上次以及搜索过的结果,你就可以打开这个开关。
 
真实网址=1
在百度的结果中,有两个网址。
一个是百度搜索结果中直接显示的网址,不全。
一个是百度搜索结果所对应的真实网址。
一般这个开关一直保持打开打开就可以了。
提取QQ=0
是否从搜索结果中提取QQ号,默认不提取,如果需要提取请设置为1
建议搜索词汇是 搜索词汇+QQ
搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
 
提取手机=0
是否从搜索结果中提取手机号,默认不提取,如果需要提取请设置为1
建议搜索词汇是 搜索词汇+手机
搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
 
提取座机=0
是否从搜索结果中提取座机号,,默认不提取,如果需要提取请设置为1
建议搜索词汇是 搜索词汇+座机
搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
 
提取微信=0
是否从搜索结果中提取微信号,,默认不提取,如果需要提取请设置为1
建议搜索词汇是 搜索词汇+微信
搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
 
提取邮箱=0
是否从搜索结果中提取邮箱,默认不提取,如果需要提取请设置为1
建议搜索词汇是 搜索词汇+邮箱
搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。
==使用==
[[image:20160111_baidu_ui_setting.gif]]
==备注==
3,360
个编辑