近年来,“大数据”一词已成为所有人都能说上两句的东西,因为尽管大数据作为一项技术,但它已逐渐扩展到各种服务行业,适用于不同的行业和业务场景。希望看到所需的结果,只要达到了数据收集的范围和细节程度。
而且近来大家最常说的小道消息“大数据抓嫖”、“大数据抓嫖”到底是真还是假?事实上,大数据对于“抓嫖”、“抓小三”来说是可以实现的,毕竟只要掌握了一定的信息,就算不需要大数据分析,人工也能抓到,更何况大数据掌握了大量的数据?
下面咱们先来看一看站长转载自半佛仙人的一片对于大数据抓嫖的探讨:
大数据抓嫖把我看笑了
昨天朋友圈被一个小道消息刷屏了,大家可以看一看这个内容,先自己感受一下。
这个案例一出来,很多人都在哀嚎大数据让人无所遁形之类的云云,还有人在讲嫖这个行业的种种。
但是作为一个风控从业者,并且真的和多地公安合作过各种神奇项目(包括抓逃)的人,我看到这个新闻的第一反应是离谱。
很多人对于大数据的理解是数据无所不能,没错,但是大数据发挥威力是有很多前提条件的。
套用到这个场景里面,大数据可以做到,但是实现不了。
再感受下这句话,可以做到,但是实现不了。
我先举个简单的例子,核弹牛逼不牛逼?牛逼炸了对不对。
但是想让核弹产生威力,你得先有办法把核弹丢到该丢的地方去,这就要求你有特别强的运载能力,以及定位能力和导航能力。
同时,你还得有非常强的防干扰,防击落,防伪装能力,不然你的东西会被拦下来。
然后,想让核弹爆炸,引爆也是一个非常复杂的专业领域,你以为是拿个锤子砸两下就能把核弹砸爆的?
最后,你以为核弹炸完就完事儿了?事后要怎么处理烂摊子,更考验综合实力。
所以你看,核弹非常牛逼,但是牛逼也是有条件的。
同样的道理,大数据的威力很牛逼,但这个牛逼也是有很多前提条件在里面的。
为啥我说这个案例特别离谱?
因为这里面透露出来的要素都是非常离谱的,因为我自己做过很多公安的数据项目。
你用大数据做任何事情,天字第一件事儿一定是你的数据从哪来。
没数据你做个屁大数据。
那问题来了,数据从哪来,有 4 个问题。
1 – 数据源选择问题
2 – 数据源获取问题
3 – 数据应用(清洗)问题
4 – 数据源合法性问题
大家这时候再看这个截图,你对照一看,就觉得离谱。
数据源选择问题,说的很明白,爬 TM 和 JD 的数据。
这时候看数据源获取。
爬数据,也就是爬虫工程,这里分 2 种。
一种是外部爬取,就是你自己写一堆爬虫,去爬对方暴露在外的界面,一般电商大战的时候,各家都会实时去爬对手的爆品的单价,自己也会有策略动态跟着调价,这块儿数据是暴露在网页端 orAPP 端的,很容易爬,只要有 IP 池就行,这种内容都是暴露在所有公共视野里面的。
一种是内部爬取,就是不暴露在公众视野里面,但是有授权就可以爬取。
例如你 JD 和 TM 的交易记录,只要你愿意授权给他们,他们就爬取你登录后的页面,爬你私人的历史订单,以及收货地址,以及浏览记录的这种信息。
这种内部爬取是必须你自己授权,而且只能授权你自己看到的你自己的信息,这不是**息。
那么问题来了,大家自己打开 TM 和 JD 的商品页面,自己看看销售记录,你能看到的所有数据都是脱敏 or 加盐的,还有大量匿名的,你根本看不到这些人的手机号,地址以及邮箱信息,就连 ID 信息都不全,一堆星号,抓一堆这种数据出来,有啥用?你知道谁是谁?
有人说可以用模糊匹配,例如半 **** 佛,可以直接匹配库里的半 **** 佛,这俩大概率是一个人。
那问题来了,你库里的数据哪里来的?合法吗?
就算合法,谁告诉你半 *** 佛就一定等于半 *** 佛?
不同电商平台的数据加盐规则都是不同的,一个空格算一个 * 还是两个 *?字母算几个 *?汉字算几个 *?我们都知道汉字在电脑里是 2 个字符,字母是一个字符。而且,允不允许标点符号的存在?
你有本事破解 TM 和 JD 的规则,你还创个屁业。
就算这个你搞定了,你怎么搞定 * 的具体内容?
两个半 *** 佛,脱敏之后,完全可以是半小胖子佛和半大帅比佛,你能说这俩是一个人?这不闹吗?
就算这俩半 *** 佛,脱敏后都是半大帅比佛,也不能代表是一个人。
为啥?
因为网络又不是 ID 独占的,别人完全可以申请一样的 ID,同理,一个人在不同的平台 ID 本身就不同。
为啥我在知乎叫半佛仙人,在 B 站叫硬核的半佛仙人,在微博叫半佛仙人正在装。
不是我有创意,而是 ID 被别人用了好不好。
同样的,我为啥要在不同平台叫一个 ID 呢?
在淘宝可以叫半淘宝,在拼多多可以叫半拼多多,在京东可以叫半京东,顺丰发件我叫半顺丰,谁把我数据卖了我可以溯源到问题平台。
在这种情况下,你怎么做逻辑匹配呀?这东西根本就不准呀。
还是模糊的逻辑匹配,逻辑网的 Key 如何设计?谁要是能把这个都搞定,建议直接去币圈,还创个屁业,直接去币圈当中本聪的爷爷。
知道为什么我只说了 TM 和 JD,没有去说通话记录么,明明截图里还有说通话记录的事情。
因为如果做不到 TM 和 JD 的身份锁定,你有一堆通话记录你也不知道要咋匹配。
这就和万事俱备,就差一个程序员一样搞笑。
好了,假如现在有个技术天才,真的搞定了这一切。
甚至可以直接从 TM 和 JD 拿到精准的脱敏数据。
那么他将面临的可能是法律的制裁。
你这么去爬大平台的数据,做自己的应用,你在找死吗?
过去两年多少大数据精英因为这个进去捡肥皂了?
而且这里面还有通话记录,运营商让你爬了吗?知道因为这个事情,多少爬虫公司进去了?
还是说这是运营商 or 公安给你的数据?他们给你数据的时候,用户授权了吗?主动授权了吗?
这可和绿码之类的东西不一样,总不能我买东西还授权一个验嫖功能吧。
而且你能不能告诉我,一个 TX 投资(还不是控股)的小公司,会不会被 TM 和 JD 弄死?
TX 自己都不敢做这种事情,南山必胜客真不是浪得虚名。
头条和微信基于用户头像都打了得有 300 个回合了,菜鸟和顺丰前两年因为用户数据打的多难看?
你觉得哪个小公司做了这种事情不会被制裁?
而且别以为大公司的安全团队是摆着看的,人家的盾都是按礼拜升级的,有时候不用升级盾,业务换个命名规则你就凉了。
另外,更重要的是,不说平台让不让你爬,用户允许你爬了吗?
你爬了这么多用户的信息,你侵犯隐私了朋友,现在是法治社会。
我坦率的告诉你,大数据能做的骚事情多了去了,最大的问题就是不合法。
好了,现在又有人说了,这是公安用,公安抓嫖用。
这就是外行对公安模块的不理解了。
十多年前什么开房记录之类的还有人操作,现在口子基本都堵的死死的。
谁告诉你公安用数据不用在意用户隐私的?公安现在受的监管是非常严的。
你知道一个警察在公安系统里面想看任何数据,都必须得有合理合法的缘由吗?而且就这样,还不一定能审批通过。
你知道每个地方的公安,对于数据调取都有严格的限额吗?超过限额要么卡死,要么问询。
你知道公安系统数据有多少人盯着吗?你知道现在追责是无限制追责吗?而且连你上级公安一起追责。
你知道公安数据任何涉外都有一个中转服务器叫警务通吗?警务通不仅仅是那个手持 PDA,更是一套机制。
你知道公安发函想要调取数据的时候,大公司其实都不配合或者打太极拳吗?
公安是真正的带着镣铐跳舞。
我做公安项目的时候,各种审批和限额弄得我头秃。
你幻想中公安无所不能,但是除非你真的有案子或者有重大嫌疑并且被认定了,并且上级审批了,才能用。
例如那个微博骂烈士的 SB。
不然天天跑数据库干嘛,很多地方的公安服务器也顶不住你这么跑。
重器只有在关键的时候才能用。
说真的,抓嫖这点破事儿,根本上升不到这么重要的地位。
要是抓嫖真的这么重要,都不用这么麻烦,直接开房数据做匹配就好了。
根本不用通话记录和网购这些花里胡哨的东西,一个是不准,一个是这年头谁还打电话整嫖,只要用开房数据就好了。
分分钟就把买的多的和卖的多的都抓了。
不需要别的,开房数据做聚合就够了。
要是觉得抓的不够多,再让电商配合把收货地址和外卖做交叉匹配,还能抓一批楼凤和楼少。
再极端点,支付宝和微信支付外加银联的数据做转账勾稽,还能再抓一批二奶和鸭子。
真的毫无限制,能做的事情多了去了。
但还是那句话。
要合法。
公民隐私在现在这个年代,谁敢乱碰这条线,谁也别抓嫖了,自己先进去吧。
别以为我在开玩笑,是真的会进去的。
数据这东西之所以限制多,不是因为没用。
而是太有用了,有用到你不限制住,很快你人就没用了。
来源:半佛仙人(ID:banfoSB)