“美团商户产品采集”的版本间的差异
来自JsRobot
(→使用) |
(→使用) |
||
第7行: | 第7行: | ||
==使用== | ==使用== | ||
请在使用采集前, | 请在使用采集前, | ||
− | + | 先租用一个动态换IP的VPS作为采集机器, | |
+ | 或者是用一个家用的ADSL直连的机器作为采集机器, | ||
建立一个拨号方式"宽带连接"。 | 建立一个拨号方式"宽带连接"。 | ||
[[image:MeiTuanShangJiaChanPing_adsl.png]] | [[image:MeiTuanShangJiaChanPing_adsl.png]] |
2016年9月19日 (一) 14:55的版本
简介
这个项目采集了美团上的美食板块的商家信息和产品信息。
背景
外卖企业需要这个数据。
演示
使用
请在使用采集前, 先租用一个动态换IP的VPS作为采集机器, 或者是用一个家用的ADSL直连的机器作为采集机器, 建立一个拨号方式"宽带连接"。如果你要把商家和产品的图片下载到本地, 在租用VPS的时候,记得申请额外的存储空间。 我们测试的时候发现,采集深圳福田区一个区的数据, 光图片就是一个多GB。
采集指定店铺的店铺信息和产品信息 当任务列表中设定的是店铺的网址的时候, 采集的结果就是指定店铺的店铺信息和产品信息 例如“http://www.meituan.com/shop/100737790” 这个一般用于测试,采集时间很短。 这个采集一般不需要换IP。
采集指城市区域的店铺信息和产品信息 当任务列表中设定的是区域的网址的时候, 采集的结果就是指定区域的店铺信息和产品信息 例如“http://sz.meituan.com/category/meishi/futianqu/rating” 这个采集就需要换IP。
采集指城市的店铺信息和产品信息 当任务列表中设定的是城市的网址的时候, 采集的结果就是指定城市的店铺信息和产品信息 例如“枚举区域:http://sz.meituan.com/category/meishi/all/rating” 这个采集就需要换IP。 这个采集的时间非常长,会等待很长的时间才会看到数据。 采集的时候请耐心等待,最好是晚上开始采集,白天看结果。
数据
数据样例[[Meia:MeiTuanShangHuChanPing_Dat.rar]
商家信息字段样例 店铺编号:100737790 店铺名称:味美轩(t距会展中心站店) 城市:深圳 区域:福田区>CBD中心区 地址:福田区金田路3038号现代国际大厦903室(近大中华喜来登酒店) 联系人: 联系电话:18042636926 店铺简介: 店铺Logo:img/100737790.jpg 经度:114.063716 纬度:22.534229 QQ:
产品信息字段样例 商品编号:40373053 店铺编号:100737790 商品名称:味美轩 商品副标题:【多城市】味美轩 商品简介:仅售5元!价值20元的数字蜡烛任选2个数字。生日蛋糕店同城免费送货上门。蛋糕预订免费配送到家1个,约2个,数字。 市场价:20 销售价:5 成本价: 商品主图:img/100737790/40373053.jpg 简要介绍:数字蜡烛任选2个数字。生日蛋糕店同城免费送货上门。蛋糕预订免费配送到家规格:约2个,数字生产日期:配送当天保存须知:24小时免费提供包装生日数字蜡烛。任选2个数字。只需要5元哦。随蛋糕一起配送。 商品详细:["img/100737790/40373053/1.jpg"] 浏览次数: 购买次数:31 规格: 所在分类:南京团购>美食团购>甜点饮品>味美轩
说明
美团有锁定IP机制的反采集措施。 采集一定数目的数据后,美团会弹出验证码,要求用户输入验证码后再运行采集。 我们推荐采用的是动态IP VPS的方式绕过这个锁定IP的反采集措施。 软件有一个“任务分组”参数,当软件执行了这么多任务后,就执行一次换IP操作。 当然你也可以其他换IP的方式换IP. 如VPN自动换IP, ADSL拨号自动换IP,路由器拨号换IP的方式)。 如果是企业环境下使用推荐使用动态换IP的VPS的方式换IP。 这个是所有换IP里的方法效果最好的。 我们都试过其他几种换IP的方式,可以用,但是会有一些这样那样的问题。