利用爬虫技术能做到哪些很酷很有趣很有用的事情

来自JsRobot
跳转至: 导航搜索
   利用爬虫技术能做到哪些很酷很有趣很有用的事情?
   用爬虫赚钱才是最有趣的!
   看了这么多回答,感觉都是采集分析数据的比较多点,本人来分享个几年前用爬虫赚钱方法。
   先说下思路:
   用爬虫:
   1.注册30万个微博帐号(包含上传头像、手机认证、登录归属地保护设置、授权应用(获取api的accessToken)等等)
   2.用爬虫登录这些帐号,每个号关注女性用户(用户搜索女性,女性购买力强),数据库记录保证这些帐号不重复关注,每个帐号每天可以关注100人,那么每天就可以关注约3000万的人。
   3.等待回粉,按照15%的回粉率,每天可以发展约450万的粉丝,一段时间后就可以发展千万级的粉丝了,每个帐号满2000关注后还要取消关注。
   4.养号一段时间后把这些号每天发淘宝客广告微博(一小时左右发一条微博,图片加链接,链接是短url,且经过淘宝客网站跳转,玩过淘宝客的知道为啥要跳转),这里的发微博用的是微博的API发的,授权应用获取accesstoken就是为了这个。
   5、微博有可能会锁定帐号,这时候还需要用验证码或者手机来解锁,封号就没办法了,控制好频率和代理ip切换等。
   6、登录阿里妈妈后台看着钱网上涨^_^,每月20号以后提现。
   7、循环以下操作:养号、发广告、解锁、取消关注、提现等。还有最重要的一点是要用一批号来测试微博的各种规律,例如发微博、关注、取消关注、切换IP等频率与锁号、封号之间关系;总之就是要摸索微博。
   关于难点与技术:
   淘宝客:主要是申请到api,用php做一些淘宝客网站。
   注册帐号:
   30万个邮箱:自己用域名架设邮件服务器,或者淘宝上买网易的邮箱(具体价格忘记了,很便宜的),都可以,然后smtp/pop收邮件进行邮箱认证。
   30万个手机号:飞Q(貌似现已关闭)卡商,支持api的,就是给你个号码,然后你可以获取到发给他的验证码,约一毛一个。
   图形验证码:打码平台多的是,约一毛一个,当然也是支持api的。
   30万个昵称与头像:爬虫采集贴吧用户和西祠用户的昵称和头像,头像多用美女头像,回粉率高。
   ip切换:最早是在家里自己的电脑上搞,就通过宽带断开拨号技术(ps:最早的时候一个宽带通过交换机可以同时拨四个号,也就是说一个宽带帐号可以获得四个ip),后来换成云服务器,用代理ip了。
   -----------------
   爬虫技术:
   这个就是分析http了,模拟登录、注册、上传头像、解锁等等,当然是用的python,
   技术就不在这里分享了,以后有空分享一些出来,可以关注我(坏笑),太多了,也很乱。
   主要用到的库(想到就说几个):urllib2、request、bs4、rsa(密码是加密后传输,这个印象较深,研究好了好久)、pyurl(这比较强大,速度快、代理支持好)等。
   爬虫技术本身并没什么难的,只要你精通HTTP协议就好(之前看知乎很多问题如何学好爬虫,很多大牛都回答说的是如何学python或是库,我都呵呵了),难的是分析HTTP与反爬。
   文件:20171010 104721 0002.jpg
   关于收入
   本人搞这个比较晚,且工作比较忙,收入并不算多,但也很可观,每天去阿里妈妈后台看收入增长,那感觉确实爽……
   我的好朋友(人称X总),高峰时,平均日入3万以上,双十一那天收入一辆迈腾!
   认识一帮人,里面有很多用类似方法(帐号群)赚钱的人,思路五花八门,有的人搞了十几万个帐号参加微博转发抽奖活动,该活动总共转发几十万次,有一半都是他转发的,抽了一堆iphone!
   再做几点说明
   0、这是几年前的事情了,现在肯定已经不好使了,微博反爬更完善了,用户也没那么多了。同时阿里妈妈也改规则了,导致淘宝客基本没什么人搞了,但这思路确实有用!
   1、代码是长期积累起来的,不是一朝一日写出来的,所以代码实际是也很乱,本人那时搞外包公司,没事搞搞淘宝客,然后慢慢写起来的,时间跨度大于2年。
   2、搞这些,支出也不小,但有了第一桶收入后就好多了!
   3、先写到这(比较匆忙,可能有错别字),如有什么疑问,欢迎交流,我不忙的情况下尽量回复。
   4、其实思路很重要,技术需要了就学!