亚马逊优秀评论者信息采集

来自JsRobot
Storm讨论 | 贡献2016年1月20日 (三) 03:56的版本 备注

跳转至: 导航搜索

摘要

     这个工具解决亚马逊的优秀评论者的联系方式的采集问题。

背景

     在微博上的大V是大家比较熟悉的。亚马逊上也有一批大V。这些就是优秀评论人员。
     这些评论人员的评论的权重都是比较高的,一个好的评论可以给亚马逊商家带来很高的流量,反之,要是成立的。
     就像是饭店需要美食家一样。一个好的店铺也需要好的评论人员。
     为了收集这些“电商美食家”的信息,我们特别编写了这个工具。

需求

     1.要求下列国家的的亚马逊优秀评论者信息采集
     美国    https://www.amazon.com/review/top-reviewers
     英国    http://www.amazon.co.uk/reviews/top-reviewers
     加拿大  http://www.amazon.ca/review/top-reviewers
     巴西    http://www.amazon.com.br/review/top-reviewers
     墨西哥  http://www.amazon.com.mx/review/top-reviewers
     德国    http://www.amazon.de/review/top-reviewers
     法国    http://www.amazon.fr/review/top-reviewers
     西班牙  http://www.amazon.es/review/top-reviewers
     意大利  http://www.amazon.it/review/top-reviewers
     荷兰    http://www.amazon.nl/review/top-reviewers
     日本    https://www.amazon.co.jp/review/top-reviewers
     印度    https://www.amazon.in/review/top-reviewers
     澳洲    https://www.amazon.com.au/review/top-reviewers
     中国    https://www.amazon.cn/review/top-reviewers
     2.输出的数据的字段为
     网址 等级 名字 邮箱 关于 兴趣
     3.输出的内容需要翻译为中文。

功能

输入

     输入是一个网址清单,可以放入一个或者多个评论者列表的网址。

输出

     一个CSV的数据表格,字段如下
     网址,等级,名字,邮箱,关于,兴趣

处理

     软件内部打开一个优秀评论人员列表的网页(比如,https://www.amazon.com/review/top-reviewers)
     枚举各个翻页
     枚举每个翻页中评论人员网址
     依次处理评论人员的网址
     解析数据保存到CSV文件

展示

20160115 amazon top reviews data.gif

使用

  1. 运行JsRobot
  2. 点击JsRobot的设置按钮,弹出设置对话框
  3. 点击JsRobot的设置对话框的恢复默认按钮
  4. 修改网址列表中的网址为你要抓取的国家的那个网址。
  5. 点击JsRobot的开始按钮
  6. 等待IeBrowser启动后
  7. 点击JsRobot的停止按钮
  8. 在IeBrowser中访问一个亚马逊的网址,
  9. 在IeBrowser中使用采集专用的亚马逊买家账号登录亚马逊
  10. 点击JsRobot的开始按钮
  11. 然后就可以自动运行了

备注

  1. 2015年10月之后,亚马逊修改了安全规则,导致他人的邮箱必须登录后才可以看到
  2. 用户在使用这个采集器之前,先要使用一个不重要的邮箱注册一个新的亚马逊买家账号。
  3. 采集过程中,一个账号访问大量的邮箱,可能会被亚马逊标记为恶意访问,从而导致账号被禁用。
  4. 不建议直接采用你重要的亚马逊账号来采集这个信息。
  5. 采集的时候最好是一个城市一个城的采集,否则可能采集中途失败。
  6. 采集的过程是是先遍历列表页面,然后采集具体的信息页面,翻页1000页还是比较耗费时间的,所以你要等待一段时间才会看到数据。
  7. 如果你是测试想很快的看到数据,验证软件是否正常工作,可以把http://www.amazon.com/review/top-reviewers/?ie=UTF8&page=1放在任务列表里,这个网址代表只采集第一页。