查看“百度搜索采集工具”的源代码
←
百度搜索采集工具
跳转至:
导航
、
搜索
因为以下原因,你没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
==摘要== 这个工具解决提取百度搜索结果获取企业网址以及电话和QQ和微信的问题。 ==展示== [[image:20160111_baidu_ui.gif]]<br> [[image:20160111_baidu_view_data.gif]]<br> ==背景== 大多数的业务员找客户还是通过百度搜索。 通过百度搜索找到自己要找的企业, 然后进一步找到联系方式打电话。 ==需求== 可以输入关键词 要求每次采集发现新的企业网址 支持关键词过滤无效网址 ==功能== ===默认处理=== 模拟人工查询的方法输入关键词 获取查询结果 解析返回结果中的标题 内容 网址 根据网址的网址进行去重 保存新发现的结果 解析结果内容, 提取第几页、第几条、标题、网址、正文、QQ、微信、电话、邮箱。 ===批量处理=== 从一个文本文件读取一组关键词, 从设置位置读取采集的页数, 生成采集任务, 提取这些关键词搜索出来的结果, 根据网址进行去重, 从一个文本文件读取过滤关键词, 保存标题包含这些标题的结果, 解析结果内容, 提取第几页、第几条、标题、真实网址、正文、QQ、微信、电话、邮箱。 ==使用== [[image:20160111_baidu_ui_setting.gif]] ==备注== 由于无法把各个企业的官网的格式是千差万别的, 无法调转到特定企业的官网去进一步获取联系方式 这个是一个缺憾。
返回至
百度搜索采集工具
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
帮助
工具
链入页面
相关更改
特殊页面
页面信息