更改
跳转至:
导航
、
搜索
百度搜索采集工具
添加451字节
,
2016年11月18日 (五) 08:00
→
功能
支持关键词过滤无效网址
==功能==
===
输入===
===输出===
===处理
默认处理
===
模拟人工查询的方法输入关键词
获取查询结果
解析返回结果中的标题 内容 网址
根据网址的域名进行网址过滤
根据网址的域名进行网址去重
根据网址的网址进行去重
保存新发现的结果
解析结果内容,
提取QQ 微信 电话 邮箱
提取第几页、第几条、标题、网址、正文、QQ、微信、电话、邮箱。
===批量处理===
从一个文本文件读取一组关键词,
从设置位置读取采集的页数,
生成采集任务,
提取这些关键词搜索出来的结果,
根据网址进行去重,
从一个文本文件读取过滤关键词,
保存标题包含这些标题的结果,
解析结果内容,
提取第几页、第几条、标题、真实网址、正文、QQ、微信、电话、邮箱。
==使用==
[[image:20160111_baidu_ui_setting.gif]]
←上一编辑
下一编辑→
Storm
行政员
、
管理员
3,360
个编辑
导航菜单
个人工具
登录
命名空间
特殊页面
变种
视图
更多
搜索
导航
首页
最近更改
随机页面
帮助
工具
特殊页面