3,360
个编辑
更改
百度搜索采集工具
,无编辑摘要
==摘要==
==背景==
大多数的业务员找客户还是通过百度搜索。
通过百度搜索找到自己要找的企业,
然后进一步找到联系方式打电话。
==需求展示== 可以输入关键词 [[image:20160111_baidu_ui.gif]]<br> 要求每次采集发现新的企业网址 支持关键词过滤无效网址 [[image:20160111_baidu_view_data.gif]]<br>
==功能==
===输入默认处理======输出=== 功能===处理=== 从设置位置读取指定的关键词, 模拟人工查询的方法输入关键词从设置位置读取采集的页数, 获取查询结果生成采集任务, 解析返回结果中的标题 内容 网址提取这些关键词搜索出来的结果, 根据网址的域名进行网址过滤根据网址进行去重, 根据网址的域名进行网址去重从一个文本文件读取过滤关键词, 保存新发现的结果保存标题包含这些标题的结果,
解析结果内容,
提取第几页、第几条、标题、真实网址、正文、QQ、微信、电话、邮箱。 设置 [[image:baidusousuov2_normal_setting.png]] 请在设置的地方设置修改关键词。 其他的设置参考后面的常规设置说明。 展示 [[image:baidusousuov2_normal_ui.png]] ===批量处理=== 功能 从一个文本文件读取一组关键词, 从设置位置读取采集的页数, 生成采集任务, 提取这些关键词搜索出来的结果, 根据网址进行去重, 从一个文本文件读取过滤关键词, 保存标题包含这些标题的结果, 解析结果内容, 提取第几页、第几条、标题、真实网址、正文、QQ、微信、电话、邮箱。 设置 [[image:baidusousuov2_patch_setting.png]] 请在设置的地方吧搜索词汇清单的文件路径修改为你的搜索词汇清单的文件路径。 其他的设置参考后面的常规设置说明。 展示 [[image:baidusousuov2_patch_ui.png]] ==设置== 采集页数=2 采集搜索结果多少页内容。一个关键词在搜索引擎上的搜索结果有很多页。一般大家都是关心的前几页内容。 桌面百度=1 搜索时是否提取桌面百度搜索的结果。 桌面搜索和手机搜索的结果是不一样的。 为1,表示提取桌面百度搜索结果, 为0,表示不提取桌面百度搜索结果内容 手机百度=1 搜索时是否提取手机百度搜索的结果。 桌面搜索和手机搜索的结果是不一样的。 为1,表示提取手机百度搜索结果, 为0,表示不提取手机百度搜索结果内容 历史去重=0 是否对以及搜索过的内容按照内容的网址进行去重。 如果你不希望下次搜索到上次以及搜索过的结果,你就可以打开这个开关。 真实网址=1 在百度的结果中,有两个网址。 一个是百度搜索结果中直接显示的网址,不全。 一个是百度搜索结果所对应的真实网址。 一般这个开关一直保持打开打开就可以了。 提取QQ =0 是否从搜索结果中提取QQ号,默认不提取,如果需要提取请设置为1 建议搜索词汇是 搜索词汇+QQ 搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。 提取手机=0 是否从搜索结果中提取手机号,默认不提取,如果需要提取请设置为1 建议搜索词汇是 搜索词汇+手机 搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。 提取座机=0 是否从搜索结果中提取座机号,,默认不提取,如果需要提取请设置为1 建议搜索词汇是 搜索词汇+座机 搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。 提取微信=0 是否从搜索结果中提取微信号,,默认不提取,如果需要提取请设置为1 建议搜索词汇是 搜索词汇+微信 电话 搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。 提取邮箱=0 是否从搜索结果中提取邮箱,默认不提取,如果需要提取请设置为1 建议搜索词汇是 搜索词汇+邮箱 搜索结果中的有效数据的多少是与您的搜索词汇直接相关的。==使用== [[image:20160111_baidu_ui_setting.gif]]
==备注==