更改

跳转至: 导航搜索

58企业名录采集

添加955字节, 2016年1月17日 (日) 16:52
无编辑摘要
==需求==
采集58上某个特定行业的企业名录的信息。
要求每天获取新的企业信息,过滤到的企业信息。
第一次要可以获得整个的企业信息。
 
==功能==
===输入===
某个城市的某个行业的企业名录网址
比如北京装潢企业的网址是http://qy.58.com/bj_271/
输入接受 http://qy.58.com/{城市}_{行业编号}/ 的格式的网址。
 
===输出===
网址,公司名字,城市名字,公司资质,公司性质,公司行业,公司规模,联系人,联系电话,邮箱,企业网址,公司地址
 
===处理===
==其他备注==58有一些反采集的处理。电话号码和邮箱都是图片。而且每天都会换图片生产的算法。字母和数字之间也可能是粘连的。采集的时候一并把电话号码和邮箱的图片都采集下来了。客户可以使用第三方OCR软件识别电话和邮箱的图片。也可以由人工处理电话和邮箱的图片。对于每天都采集,抓取新增企业信息的客户来说,人工处理足够的。
3,360
个编辑

导航菜单