这个项目采集了百度网盘中的文件。
1.用户自己首先准备好百度云账号,登录百度云 2. 把需要采集的关键词批量保存在TXT文档,软件读取关键词在目标网站搜索, 3.根据搜索结果筛选出PDF,PPT和Word格式文档下载。 4.每次搜索采集文件保存同一个目录下,方便下载文件去重,如果格式不同,文件名相同也是无法去重的,能够去重的是相同文件名相同格式的不重复下载,
默认处理