我用 AI 刺穿黑客的大脑
文 | 史中
(一)孙悟空凭什么识破白骨精?
话说西天取经路上,一日正行到山顶,吃货唐僧饿了,非让悟空去南山搞几个桃子。
正是这个蜜汁 Debuff 行为,让唐僧暴露了自己的破腚,勾起了白骨精的食欲。白骨精但见八戒、沙僧护持,不得近身,化作少女、老妪、白胡子老头,三番接近唐僧,都被及时赶到的悟空识破,一棒子捣死。
这就是大家都“自以为”熟悉的三打白骨精。
我之所以说“自以为”,是因为大多数人不知道,吴承恩其实写了一个绝妙的“黑客寓言”:
唐僧,就是我们国家的大企业或职能部门,代表朝廷完成重要使命的“御弟哥哥”嘛。
唐僧肉,就是企业里的机密数据,坏人偷去肯定能卖个财务自由的好价钱,相当于长生不老。
白骨精,当然就是黑客,它想方设法变换不同形态接近大企业,把“唐僧肉”给吃喽。
悟空、八戒、沙僧,那就是网络安全厂商,他们作为“乙方”,职责就是“识别黑客,干掉黑客”,保证唐僧“不掉血”嘛。
了解了这些比喻,再看三打白骨精的细节,你就会发现一些秘密。
比如《西游记》原文有这么一段:
那女子被悟空打死后,带来的饭菜都变成了蛆虫和蛤蟆,长老已有三分信了这是个妖怪。
可八戒气不忿,唆嘴道:师父,这个女子是此间农妇,因为送饭下田,路遇我等,却怎么栽她是个妖怪?哥哥的棍重,走将来试手打他一下,不期就打杀了;怕你念紧箍咒,故意使的障眼法,变作这样东西,演幌你眼,使不念咒哩!
这就怪了。本来事情都解决了,八戒为啥偏要“气不忿”,瞎BB?
因为八戒很敬业,在他看来,那根本就不是“黑客”,而是活生生的“正常访问”,放行正常流量本来就是乙方的职责嘛!
哎,世间的很多 Bug,都是“能力不够”还“忠于职守”造成的呀。。。
先来解决一个全篇最重要的技术问题:
为啥在猪八戒看来,他们是三个不同的人;而孙悟空用火眼金睛一看,他们都是“白骨精”呢?
一句话,是他们的认知深度不同。
任何一个事物都兼具不同的属性,它们有深有浅。越是表层的属性,就越容易发生变化;越是深层的属性,就越难变化。
比如白骨精,它能变成各种人,还能变成非人的东西,比如“小猪佩奇、奥特曼”;但是它无论怎么努力,都很难改变自己深层的“妖精”属性。(此处白娘子端着雄黄酒骂骂咧咧退出群聊)
猪八戒的认知能力弱,就只能看表层属性,所以在三个场合中,把它判定为三个不同的人。
孙悟空的认知能力强,可以认知深层属性,所以在三个场合中,把它们判定为同一种东西——妖精。
两人都尽力了。
但俗话说“画龙画虎难画骨,知人知面不知心”,不正是这个道理么?!
那孙悟空的“火眼金睛”到底是个啥原理,能认知到这么深的属性呢?
这里要给你科普一个词:“特征维度”。
白骨精站在面前,咱们可以用不同的“特征”来描述它:
比如,眼睛、鼻子、嘴巴、穿着、打扮,这些都是一眼能看到的特征,就是“低维特征”。
比如,步态、眼神、谈吐,这些就不是一眼能看穿的特征,需要仔细观察才能获得,这就是“高维特征”。
比如,气场、性格、精神状态,这就是更难获得的特征,需要综合很多信息才能判断出来,这就是“更高维的特征”。。。
在猪八戒判断“是人是妖”的模型里,更多使用了“低维特征”,于是很难准确;而在孙悟空“火眼金睛”的模型里,更多使用了“高维特征”,更容易看到“妖气”。
这位浅友说了:中哥你厉害了呀,连“火眼金睛”这种魔法都能像模像样地科普??
你懂的,我说火眼金睛,怎么可能是为了说《西游记》里的孙悟空,当然是要给你介绍一位活生生存在于我们这个世界上的“孙悟空”。
他来了!此人就是梦想建造一个庞大的 AI 系统,从而洞悉世间一切黑客行径的“火眼金睛博士”——曲武。
曲武
(二)造出火眼金睛,拢共分几步?
朋友同事们很少称呼曲武的名字,大家一般叫他“曲博”。可见,“博”已经长在了他身上。
那曲博是啥博士嘞?他是人工智能领域的博士。
话说这里面其实有些“蹊跷”。
蹊跷在哪?我说一件事儿你就明白了。2011年时,曲博曾在清华的 KEG(知识工程研究室)搞研究。
而 KEG 实验室一直是中国 AI 技术的领头羊。2023年,全中国公认最牛掰的“大模型” ChatGLM 就出自他们之手。
设身处地想一下:
老司机上了人工智能这个“高速”,却没有一脚油门踩到底去搞充满鲜花掌声的人工智能本“能”,而是一拧方向盘,走上了用 AI 保卫网络世界的“岔路”。
这有点儿像白求恩不在加拿大享受人生,却不远万里来到中国,做出这种选择本身就极不平凡。
要理解曲博为啥这么“想不开”,我们不妨回到2011年去瞅一眼。
那一年,一家国内顶尖的网络安全公司正在和清华合作,目的是解决一些网络安全技术的瓶颈。曲博就是清华派出来平事儿的“神兽”。
本来,人家主要想解决的瓶颈是——“检不过来”。
打个比方,IT 系统就像一个飞机场,有很多男女老少的旅客,可是其中一些是白骨精变的。
为了找出白骨精,理论上每个人都要过一遍安检,这没错吧。
但是,安检员干活儿忒慢,遇到旅客扎堆的极端情况,队伍排出去2里地,旅客都要误飞机了。为了机场正常运转,只好随机放掉90%的人,只安检10%的人。
速度不够快
安检系统是屏障,放水肯定不行啊!于是曲博把当时方兴未艾的“大数据技术”整套引入,让数据查询能力提升了上千倍,实现了“应检尽检”。
瓶颈解决,安全公司相当满意,拱手道谢,准备回家。
“等等!”曲博一声喝号,对方一激灵。
“你可知道,现在的产品,最大的瓶颈不在‘安检速度’上,而是在‘安检能力’上!”他摆出柯南断案的姿势。
能力不够强
原来,经过一段时间的研究,曲博正是发现了我们在《第一章》讲的那个严重的问题:
当时即便是市面上最好的安全检测系统,使用的也都是“低维特征”。
它们的原理大概是这样的:
1、每出现一种病毒,安全研究员就会对它人肉分析,找出其中包含的特别代码字段,然后把这些字段做成“识别规则”;
2、每总结出一条新规则,就加入检测引擎,下次“安检”时如果有某个程序产生了相同的字段,就会击中这个规则,不就证明这个程序是恶意的了么?
这些所谓的“代码字段”,看上去唬人,但其实就相当于“眼睛、鼻子、嘴巴”。
这次白骨精变了个少女,你就记下了少女眉眼的样子,下次人家白骨精不变少女了,你就妥妥认不出来,给放行了。。。这检得再快有啥用?
所以,把安检流程做得快些固然重要,但更重要的,是把负责安检的人从“猪八戒”升级成“孙悟空”啊!
曲博盘算,要真把孙悟空做出来,中国网络安全产业就会从“高老庄级”跃升到“齐天大圣级”,难道这个梦想还不值得燃烧自己么?
越想越上头,曲博一个急打方向盘,冲上了网络安全的“不归路”。。。
话说,曲博这么笃定,他到底有多大胜算嘞?别嫌我啰嗦,咱们推演一下。
安全系统和黑客的较量,本质上就是一个棋盘上黑白双方的博弈:
一边是黑客不断思考——创造出新的攻击方法;
另一边是安全专家不断思考——找出攻击方法的特征。
正邪两方都是顶尖的聪明人,好歹打个平手吧?
可别忘了,黑客是执黑的“先手”,他总是先变化的一方。防守方哪怕紧跟黑客的变化总结规律,也会慢人一步。。。
这种不公平的局面下,防守方还想赢,那就必须比黑客更聪明,预判黑客的预判。
可是,安全研究员总归还是人。人脑处理数据总会有一个物理极限,就算专家一瓶接一瓶喝脑白金,也没法综合更多数据总结出更高维的特征。
你看到了吧:“人”,其实是这个问题的终极瓶颈。
怎么甩开人呢?显然是用“人工智能”!
AI 可以把多个电脑连在一起,对大量数据进行联合思考,从里面攥出来更多的“高维特征”。
只要特征维度足够高,再聪明的人类黑客在它面前都会被碾压,乖乖露出狐狸尾巴。
以上推演,就是标准的“第一性原理”。
看懂这个原理,你也就明白了曲博为啥这么笃定。
说回当时,怀揣这个想法,曲博开始了“周游列国”。
他先是去了网络安全公司启明星辰。
可是当时阿法狗还没出来,ChatGPT 更是没影呢,这套 AI 理论太超前了,大家都不清楚怎么跟他配合,曲博的计划推进很慢,他只好背起包包,先去别处看看。
下一站是华为。
这里的同事们倒是很支持新技术,可是没想到,华为有严格的数据管理制度,不仅不能碰客户的数据,连华为公司内部的数据都严格限制使用。
刚才说过,要想预判黑客的预判,最基本的操作就是把不同的数据放在一起思考。
现在不让用数据。。。巧 AI 难为无米之炊呀。。。
此时节,已经到了2015年。虽说折腾了半天产品没能落地,但曲博并非一无所获,从启明到华为,他真真实实地收获了一众知音。
曲博在华为的同事胡文友,就是一个超级大知音。技术出身的老胡很快就看出了“火眼金睛”的潜力——AI 属于“养成系”技术,随着时间推演,它能越变越强!所以这事儿不仅能成,还能大成!
知音闲暇时经常一起唠嗑,越唠越觉得捉急。有一天,他俩突然福至心灵:要不。。。咱们。。。自己干???
金睛云华,就此成立。
那一年,曲博34,老胡44。
(三)你得先有“炼丹炉”
孙悟空的火眼金睛不是生来就有,而是在太上老君的炼丹炉里七七四十九天给炼出来的。
现实中的“火眼金睛”更是如此,要靠丹炉来炼!
那炼丹炉是啥嘞?就是插满了显卡的高性能服务器。
又是“显卡”,又是“高性能”,一听就便宜不了——丹药还没炼成半个,先是置办炼丹炉就得几百万,这。。。钱从哪来?
曲博和老胡都是技术出身,一个赛一个老实,也没想着融资。正好当时手头攒了些钱准备买房,俩人跟媳妇商量了一下,还是拯救世界更要紧,于是纷纷把买房钱都投进了公司。
可即便这样还不够,筹备新公司还得招人,而且 AI 人才都死贵死贵的,于是他们又拉来一位朋友投了些钱,总算把公司撑起来了。
钱都花在刀刃上了,其他地方就只好从简了。。。
就在北京的一所民居里,硕大的机柜开始运转!
话说,这个“炼丹炉”简直是吃电狂魔,稍微一使劲就能把电闸给干跳了。找师傅修保险丝?没那预算!曲博自己上手,把电工手艺都给学会了。
这么耗电肯定发热啊。空调?不用!曲博淘来了一个烧烤摊吹羊肉串那种大个儿风扇,对着狂吹一样解决问题。。。
阳台上放的就是机柜。
虽然外观简陋了些,但这“炼丹炉”里的东西却是货真价实!
啥东西呢?各种病毒。。。
原理是酱的:
曲博从全球最大的病毒库 VirusTotal 上把所有恶意代码都下载下来,然后在系统里制造好多沙箱,让病毒在里面“释放天性”,肆意展现出恶意行为;
同时,一整套分析系统已经拿好了小本本,从上帝视角把各路恶意代码的表现完整记录下来;
这些数据集送到专家那里做必要的标注,再投入人工智能的训练系统,从中抽取出“高维特征”,做成一个“AI 模型”。
这个 AI 模型,就是能识别恶意代码的“火眼金睛”啦!
这张图里,最下面是“炼丹炉”,中间是样本数据,上面就是训练出来的 AI 模型。
你看这一整套“炼制”流程里,除了标注那一步还用到一些人工,其他地方已经实现了自动化流转。(当然,这一点点“人工”也并不能忽视,这里留个伏笔,后文我们还会细说。)
总之,996的人工参与越少,系统效率就越能007:
世界上出现新的病毒,自动收集,自动进入沙箱,自动表现行为,自动进入炼丹炉,自动改进“火眼金睛”。
给你画个动图感受下↓↓↓
论效率,比吭哧瘪肚的人类专家高到不知哪里去了;
论效果,AI 抽取的特征维度更高,更是碾压人类专家。
把这个火眼金睛和高速的检测引擎装在一起,就成了可以降妖捉怪的“孙悟空”——云鉴(ATD)高级威胁检测系统。
大家没日没夜地干,只用了一年时间,就做出第一版 ATD。
ATD 有多猛嘞?我举个小例子:
世界上活跃的病毒木马,总共就那么几十个家族。可是这么多年,都没有被赶尽杀绝。
原因很简单,它和真实世界的病毒一样,会不断变异。
黑客在原有木马基础上做一些改动,或者根据原有的思路把关键部位重写一下,从代码特征上看,新木马就和旧木马完全不同了。
此时,给传统的“猪八戒式”安全软件来看,那就妥妥的是一位女施主,不能打杀了。。。
但是,ATD 却把木马的代码转换成图像,再把新木马和旧木马的图像特征做比对(这个特征就是高维特征了)。
这么一来,哪怕黑客改动、重写了很多地方,新旧木马仍然能呈现出相似性,在 ATD 的火眼金睛看来,还是白骨一堆!
这个彪悍的特性就叫“AI 驱动的恶意代码基因图谱检测”。
你看,完全不同的代码,在图像层面展现出了高度的相似性。
科普暂且告一段落,咱们回到曲博身边。
2016年,曲博坐在屋子里看着自己的成果,像是上帝造好人间,准备暂歇片刻。
可是,好像哪里不对。这么先进的 ATD,大家肿么不来抢购呢?
曲博心里当然明白,所有的创始人都是偏技术的,没有人搞销售。。。这酒虽然香,可是金睛云华这名字太耳生,安全行业没你这一号啊,别人想了解你都没门路,佛系得过分了。
看来看去,大伙儿的目光落在老胡脸上。老胡在华为做过很久的解决方案技术顾问,横竖一比,他也是最接近“销售”的人了。。。
“行,”老胡一拍桌子,“先拿我这张脸去刷刷看!”
客户的门朝哪开暂时不知道,但友商在哪儿还是能找到的,那就先去友商拜拜码头。
老胡在心里拉了一张名单,把各家创始人比较牛X、识货的网络安全公司来了个排排站。
在名单的前几位,就是素有“黑客特种兵”之称的知道创宇。老浅友都熟悉,知道创宇的创始人赵伟也是出了名的猛人一位,怀揣家国情怀,想来和金睛云华能投脾气。(想了解知道创宇,可以看《黑掉摄像头,你看到好看的皮囊》《夜店里的风雪罪案》)
那天正好赶上一位朋友要去创宇,老胡厚脸皮去蹭着串门。
到了知道创宇一聊,巧了!他们刚刚拿下公安部的一个订单,其中一个子项就是要在大流量中发现黑客的行踪,但客户要求很高,传统的技术怕是会导致很多误报,正想着用 AI 来试试。
再瞧金睛云华这个状态,东西做好了正想找个客户闯闯名声,真是困了有人送枕头,直接合作不就妥了?
就这样,聊天聊成了一笔订单。
出得门来,老胡还有点懵,现在生意这么好做的吗,刷个脸就掉装备?
如法炮制,老胡后来又结识了盛邦安全的小伙伴。话说盛邦的创始人权小文也是一位技术深厚且低调沉稳的大咖,我们曾在《网络世界里关二爷大战异形》里详细介绍过他。
盛邦在网络空间测绘领域做得非常扎实,服务的很多客户都是中国顶尖的网络空间守卫力量,有多顶尖呢?顶尖到我没办法提他们的名字,就叫“A类客户”吧。
盛邦不仅非常识货,还很诚挚,在这些客户面前毫不吝啬地 推荐金睛云华,接连促成了几笔订单。
然而,这种“聊天式销售”毕竟有点儿靠天吃饭的意思。
而且你懂的,A类客户都是干大事儿的,巴不得穿上迷彩伪装,网络防御武器用得再好也很难帮你宣传。。。于是,第一波开门红之后,虽然打开了局面,但没想象中热闹。
2017年中,大伙儿盘算了一下,今年还是会微微亏损。。。
这是公司成立的第一年
曲博倒是心态稳定,牛X的技术被大家接受,总要有个过程嘛,今年小亏,明年打平,后年不就有希望盈利了嘛!
话虽这么说,但这群人身后的“炼丹炉”可是一刻不停地在运转,活像一个吞金巨兽!
眼看创业之初凑的钱已经花了大半儿,底子还在一点点变薄,并不是每个人都能像曲博这么闲庭信步。
那天,另一位出资的朋友突然找到曲博和老胡,委婉地提出想自己去创业,需要把投的钱退出去。。。
机关算尽,没算出这一道晴天霹雳!
(四)翻身重上筋斗云
都是好朋友,要不是人家当年给予信任,公司恐怕也难开起来;现在想退出,说什么也应该满足。可问题是,钱都花了呀。。。
眼前只剩一个办法:写欠条。
男子汉大丈夫,既然相信事儿能干成,写个欠条也是不碍的。可是,真到要落笔的那天,曲博心里突然如潮翻涌。
手握这么好的技术,为了改变世界,创业连房都没买,眼看北京房价翻了一番且不说,现在还要倒欠别人几百万。退一万步,如果自己单身一人还好说,可是家里还有老婆,我怎么跟人家交代呢?
不签呢?也行,无非就是公司变卖资产,取经路上散伙,大家各自回花果山高老庄。
可是,这么多年的梦,就碎了啊!
曲博跟老胡两个人,坐在家附近一家猫屎咖啡门口的地上,两个人大男人说到这儿,眼泪再也忍不住了。
是死是活,总要了断。曲博咬咬牙,决心回家跟媳妇坦白,要是媳妇说不同意,第二天就开会解散公司,纵有一万个不甘心,咱也不干了!
你是个男人,也是公司法人,无论怎么说都应该负责任。几百万确实不少,但退一万步说,你的公司真的做不下去了,咱们一起去工作,凭咱俩的能力,五年还不清,十年也一定能还清!
这个字,你签吧。
他的妻子说。
“没有这番话,就不会有今天的金睛云华。”曲博回忆。
话说当时,欠条写完,曲博发愣,创业这条路远比想象中凶险,只靠几个人几条枪单打独斗总还是太单薄。
直到这时,他和老胡才严肃地想到一个叫“融资”的东西。眼看别人融完资都挺嗨皮,咱们为啥不试试?!
金睛云华公开接受融资的消息放出去,如一石激起千层浪——你若是不说,还则罢了;你既然说了,就别怪我们掏钱不客气了。
先找过来的是启明星辰的几位老同事,曲博的技术有多强,他们当年可是首批围观群众,为了战略入股金睛云华,他们专门合伙成立了一个投资公司;
紧跟其后的是最初的两位合作伙伴知道创宇和盛邦安全,金睛云华的系统在客户系统里运转的效果如何,他们最知道底细,虽说创宇和盛邦自己还是筚路蓝缕的创业公司,但是不管了,这么好的机会过了这个村儿就没这个店儿了,投!
再后来,技术嗅觉灵敏的网络安全公司永信至诚,还有网络安全界各方都尊敬的“校长”谭晓生,还有很多财务投资者都加入了后续投资队伍。
从合伙人退股到大家踊跃投资,剧情反转如此之快,着实出乎曲博的意料。本来在幽暗中穿行的他,对“AI 驱动安全”的 Slogan 又信心爆棚,手握剑柄,何妨再战300合?
筋斗云,总算被悟空等来了。
话说,2018年其实是全世界网络安全的一个分水岭。
当时大概发生了这么几件事儿:
1、全球企业信息化普及,企业IT系统内部的数据迅速膨胀,数据价值也猛然提升。
2、这些数据散发着“血腥味”,黑客们闻着味道就去了。面对巨大的价值,他们“值得”投入巨大的精力翻新攻击手段,让每次进攻都产生巨大变化。
3、在黑客加力之后,传统的“猪八戒式”网络安全守卫系统瞬间变得呆滞,漏洞百出。巨大的网络棋盘上,正义阵营的战线变得岌岌可危。
但沧海横流方显英雄本色。
猪八戒被爆锤,孙悟空越战越勇,揪出一波又一波黑客。实力已经不允许金睛云华继续低调了。。。
当时,某省的有关部门遇到一个棘手的问题:
他们抓到了一批来自境外的网络攻击动作,但是人类专家没办法把这些攻击动作跟背后特定的国家和组织对应起来,从而影响后续针对性地防御。
于是,他们开放了这个研究课题,“悬赏”让能搞定的公司来做。
曲博一看,这事儿我们略懂啊,于是“揭了皇榜”。
爽文剧情出现了:
各种进攻方式,在人类看起来没任何规律。但是 AI 打眼一看,它们的高维特征简直不要太明显,就像小孩搭积木一样,瞬间能准确分类,对号入座。
就这样,课题不仅顺利完成了,还获了奖,ATD 也顺理成章地留在了相关部门继续工作。
这件事刚尘埃落定,又有一个机会又出现在曲博他们面前。
2018年,CNCERT 举办了一场网络安全引擎大赛。
CNCERT 的全称是“国家计算机网络应急技术处理协调中心”,专门负责发现和处置全国网络中的异常事件,相当于网络空间里的“总城管”,重要性不言而喻。
他们当时举办这场比赛,颇有“华山论剑”的意味——开放一块我们国家真实的网络,各路豪杰把最好的检测产品拿出来实地探查,看看谁能发现这里面的“隐藏黑客”↓↓↓
真实的网络,真实的产品,当面锣对面鼓,谁都做不了假,这最适合金睛云华这种技术流的公司了。
ATD 刚部署进去,就像点燃一颗闪光弹,把网络空间映照得如同白昼,看到的情景让所有人毛骨悚然。
一个黑客正驻留在某企业内部,大口吸血,并且把吸到的数据通过一种极其怪异的姿势传往国外。
这种怪异的数据传输方式就是“隐蔽隧道”。
弱鸡黑客,一般是进去小心,出来粗心——拿到企业机密数据之后就会忘乎所以,直接大摇大摆通过正常途径传输出来。
可他们想不到,很多安全产品都会在这个关卡做监测,一旦探测到高强度的信息外传,就会触发警报,让黑客的“努力”功亏一篑。
黑客大佬,就不会这么莽撞——他们会把数据加密成一段超长的字符串,每8个字符一组,放在网址中间,假装对这些网址进行访问。
实际上,每“访问”一个网址,就相当于对外传出了8个字符。
一般的安全产品只会检查明显的数据外传,而无法识别这种伪装成“网址访问”的数据外传。这就是“隐蔽隧道”的原理。
但再隐蔽,它的最终目的仍然是要把数据传出去,和正常的网址访问存在特征区别。
只不过,这些特征在人类看来很难捉摸,但是给 AI 看,就非常容易区分出来。
由于“隐秘隧道”的搭建成本比较高,普通小黑客很少用,所以那次 ATD 抓到的很可能不是一般的小虫子,而是某个巨大怪兽的一只脚。。。
这件事情具体的调查交给了相关部门去执行,后续情况曲博也没看到,但他能看到的,是各种“华山论剑”的机会接踵而至:
从G20的安保,到各省大数据局的安全监测;大到骨干网安全筛查,小到各市、区的安全态势感知,各路重要的组织单位都闻讯赶来,点名要金睛云华出马。
从很多角度看,这时的 ATD 都已经冲破了传统网络安全技术的瓶颈,成为了一个无可替代的“新物种”。
而回头张望,正是无数同事的咬牙坚持,众多投资人的真金白银,无数客户的点赞,终究如众人抱薪,终究成为了带悟空扶摇直上的筋斗云。
话说回来,曲博的“神预测”果然应验:
2018年金睛云华收支平衡,2019年就实现了首次盈利,而且一直盈利至今。不过只有天知道,为了让这个预测成真,有多少人拼了老命。
现金流稍微宽裕,曲博想到的第一件事儿不是喝酒庆祝,而是——升级炼丹炉!!
(五)孙悟空 Pro Plus Max
2019年时,金睛云华已经告别民居,搬到了一座小别墅里,“炼丹炉”的机柜也从最初的1个变成了8个,专门放在单间里,引擎轰鸣,煞是拉风。
但这个规模,只有曲博设想中的十分之一,没错,他想升级成80个机柜!
这么多机器板卡肯定要花巨资去买,这暂且不论。曲博问了一圈, 单是在北京海淀区找一个用来放置8个机柜的机房都要一年近百万租金。。。
这。。。不太符合金睛云华艰苦创业的精神面貌呀!
北京机房
曲博眉头一皱,计上心来。
他想到了自己的家乡大庆。
曲博的老爸很早就下海做生意,家里有一个小工厂,只不过经营策略比较保守,童叟无欺,没有搞太大。用曲博的话说,“三十年前是百万富翁,现在还是百万富翁。。。”
这两年工厂生意一般,厂房闲置。这不巧了吗,正好可以用来放“炼丹炉”。只有一样,80台机柜的发热太大,需要做专门的散热系统。
曲博多方打听,在河南有一家银行,由于规划变更,刚建好一个机房就要变卖,拆下来一套全新二手空调设备只要不到20万。他赶紧交钱买下了这个“馅饼”,雇卡车奔袭千里,把空调运到大庆。
可是大庆的安装团队都不是专业弄机房的,给他们做不放心,从北京派人过去又太贵,这可咋整?
曲博看了一眼65岁的老爸:“爸,你要不要亲手支持一下国家的网络安全事业?”
就这样,老爸、姐夫,全家“壮丁”齐上阵,搞了几个月时间,把各种设备安装到位,只剩最后的电力调试。这要谁来干呢?
好说,高级电工兼金睛云华 CEO 曲博亲自上阵!
曲博和父亲
十一期间,曲博回到老家,把机房进行了最终调试。
三,二,一,点火!
就这样,在大庆这个北方的石油之城,一个不起眼的厂房里,架起了“炼丹炉 Pro Plus Max”,人工智能燃起了的熊熊烈焰。
我敢打赌,2019年曲博在建立这个机房时,几乎不可能预料到后来发生的一切。
而故事讲到这里,咱们也终于要上快车道了!!
估计很多浅友都知道,最近几年人类科技领域有一个超级大发现:
人工智能的能力大小和它的规模大小不是线性关系,而是一种奇特的“涌现”关系——当模型突破一定的规模,它的能力会爆炸式地跃迁。
这就好像你去商场买东西,买一赠一,买二赠二,买三赠三。
但是,当你买一百时,就不是赠一百了,而是直接赠一万。仿佛卡到了了不得的 Bug。。。
大庆机房
2020年,一篇又一篇的论文怼在曲博眼前,让他心潮澎湃。
无数前沿研究开始证明,如果把 AI 模型做到足够大,至少会带来两样天大的好处:
1、AI 可以提炼出更高维度的特征,一下子比以前聪明百倍千倍;
2、AI 可以掌握“自学”的能力,再也不需要老师傅给它喂那么多的标注数据。
没错,这套技术就是如今火遍全宇宙的 ChatGPT,的前身,“预训练大模型”。
大模型千好万好,只有一条:必须家里有矿——有非常大的计算集群才能训练。
曲博乐了,哦,炼丹炉是吧,咱家有啊!!
就这样,在很多安全公司还在跟传统人工智能搏斗的时候,金睛云华已经在大模型的路上打怪杀敌了。
他们是怎么做的呢?
在金睛云华的“小模型”时代,他们的做法是:把黑客的行为分成了30多个类别,比如“SQL 注入”、“Webshell”、“C&C通讯”,还有之前提到过的“隐蔽隧道”之类。。。
针对每一类行为,他们都开发了一个人工智能模型。
这就相当于搞了30多个孙悟空,每来一个人,都要30多个孙悟空检查一遍才知道你是不是白骨精。
这显然会让“安检流程”比较费事↓↓↓
但是,最费事的其实不是“安检环节”,而是之前的“训练环节”。
你可能还记得,之前我们埋了一个伏笔。虽然“炼丹”环节大部分都实现了自动化,但是唯有一个环节,就是“样本标注”还需要大量的人工参与。
具体来说,这叫“监督学习”,一个小模型需要经过100万个样本投喂才能“毕业”。
30多个模型,每个都需要这样“监督”一遍,其中的工作量可想而知。
但是,大模型的训练原理完全变化了,成了“非监督学习”。
你先不用标注,把各种数据一股脑喂给大模型,让他“自己体会”。体会明白后,它就掌握了事物的内在联系。
在此基础上,你再用少量的标注样本进行精调,让它明白你想干啥,就行了。
这个用于精调的样本,大概只需要5-10万个。你想要完成30多类任务,就拿30多组样本都给这一个模型看,就够了。
这样搞下来,你最后得到的是一个完整的“孙悟空 Pro Plus Max”,一个顶过去三十个,还能更聪明千百倍,人工工作量还直降90%-95%,简直是开挂一般的存在!
后来,曲博激动地把公司投资人之一谭晓生请来,给他嘚瑟了一下这个惊人成果。
谭晓生竖起大拇指:“这条路被你们走通了!”
话说当时,大模型加持的 ATD 虽然好使,但究竟能好使到什么程度,其实曲博自己也不太拿得准。
他决定挑战一把极限,死磕网络安全界最大的难题之一——加密恶意流量。
加密一直是人类技术皇冠上的明珠。战争中最底层的技术对抗大多发生在加密领域。大名鼎鼎的图灵,就是靠破译了德军的加密体系,才让二战局势迅速倒向盟军一方嘛!
网络战争更是如此,真正“活儿好”的大黑客,会在他的每一次信号传输中都使用加密指令,全程不露马脚——你都打不开它的包裹,怎么判断里面是不是炸弹呢?
以加密方式传输指令,就像一个个严实的包裹。
这时候,曲博身上的“博”开始发挥作用,他扎进了论文的海洋游了一遍,发现了秘密:主流加密算法,为了实现效率和安全的平衡,都牺牲了一定的随机性。
也就是说,即便使用了这些主流加密方法,在极高维度上,恶意流量仍然能展现出其固有的特征。
有了这个理论加持,曲博心里有数了,接下来就看大模型的“发挥”了。
经过几个月的“特训”,见证奇迹的时刻到了。曲博差点蹦起来——果然不用解密,AI 照样能识别出来坏人!
这意味着,“孙悟空 Pro Plus Max”不仅有火眼金睛,还具备了隔着帐幔看清妖孽的“悬丝诊脉”能力!
这个瞬间,在我看来就是网络安全的“阿法狗时刻”。
2021年以前金睛云华的 ATD 系统,虽然超越了99%的人类专家,但是在和最顶尖的人类专家还是难分伯仲的。
但再顶尖的人类专家,也不可能识别出“加密流量”。
在这一点上,AI 相当于打败了安全专家中的李世石和柯洁,从此能够毫无疑义地代表人类全体,向远方眺望。
这种成就感难以言表。
讲真,加密流量基本相当于网络安全的“肿瘤”。很多企业苦加密久矣,这时节终于看到有人能解决这个问题,纷纷“请兵拿贼”。
看大家热情高涨,曲博干脆把加密流量检测专门独立出来,做成了如今的“云晰”(ETD)系统。
就在金睛云华众将还没来得及好好庆祝时,曲博一回头,ChatGPT 横空出世。
他放下酒杯,暗自点头——不妨等一会儿,老夫再去温酒斩个华雄,回来一起庆祝!
(六)八万四千根毫毛
这个要斩的“华雄”是谁呢?
话说,曲博之前六七年做的 ATD 系列,都是在做“安全检测”。
但是客观来说,网络安全保卫的工作是一个完整的体系。就像那取经路上,降妖捉怪最多是“1%的灵感”,剩下“99%的汗水”是沙和尚白龙马老老实实扛着行李往前走。
这些日常工作就是“安全运维”(SecOps)。
我们还是回到机场的比喻。机场安检口要想正常运作,安检仪只需要一台,但旁边的辅助人员需要一大堆!
你在机场仔细观察,会发现很有意思的特点:
“安检辅助员”总体并不需要特别高的专业知识,但是,他们又必须能够灵活应变,处理各种繁琐的小灾小情,一会儿这个人充电宝超标,一会儿那个人私藏打火机,一会儿有人带超过100毫升的液体。
正因为工作内容太开放,这个岗位一直没能被机器替代。
即便今天,你去安检口也会看到一票工作人员围着安检仪忙前忙后。
网络安全的运维领域也是如此,平常要对各种系统告警进行查看,大部分异常只需要简单处理就过了,只有小部分需要跟踪深挖。
但这个行业存在两个问题:
一,人才缺口;
二,效率瓶颈。
业内普遍认为,中国网络安全的人才缺口在100万左右。
这100万主要就是指安全运维人员。之所以存在缺口,主要是因为安全运维的定位——赚白菜钱操白粉心,高级人才不爱干,低级人才又干不了。
所以很多公司愣是找不到合适的运维团队。
退一万步,即便费了九牛二虎之力凑齐一组运维人员,但他们毕竟还是肉身凡胎的人。
在 AI 的加持下,那1%的灵感(安全检测)不断摆脱人力限制,越转越快;可这99%的汗水(安全运维)却要依赖人工,为了不至于拖整个安全系统的后腿,就得不断加人。总体成本根本控制不住。。。
我们又遇到了那句话:人是“终极瓶颈”。
孙悟空(安全检测)在长大的过程中,沙和尚(运维)就得不断增多。
巧了,2023年 ChatGPT 所代表的自然语言大模型的崛起,正好可以用来解决这个问题。
诶,怎么刚说过大模型,这里又来了一个大模型?
之前用来做安全检测的大模型,只需要理解程序语言就行,所以叫程序语言大模型,里面大概有1亿个参数;
而 ChatGPT 这种叫自然语言大模型,可以理解人类语言。人类语言比程序语言复杂得多,所以自然语言大模型有100亿以上的参数。
可想而知,制造这个自然语言大模型所需要的算力就更大了,曲博那个炼丹炉终于炼不下了。。。
幸运的是,“普天之下程序员皆兄弟”,这一波全世界的开源技术社区异常给力,很快就出现了极高质量的开源大模型,包括 Mata 的 LLaMA 和清华系公司“智谱 AI”的 ChatGLM。(有关开源精神,可以看《开源武林》)
理论上来说,在这些语言大模型之上,只要用大量网络安全处置报告和相关文档对它进行“精调”,就能让它掌握运维知识——这个活儿炼丹炉是能干的!
训练好之后,遇到问题你只要问它,它就会给出具体的运维建议,从而让“SecOps”变成“AISecOps”。
如此,就能大幅减少运维人员的数量:一个顶过去五个。
以上只是曲博的理论推演,现实中真想把它做好,还需付出愚公移山之力。
曲博点点头,把之前 ATD 系列产品交给研发负责人刘兵执掌,自己当愚公,带队杀进了自然语言大模型的“山”里。
2023年夏天,经过近半年的封闭开发,他带着新成的黯然销魂掌走出绝情谷,这就是 CyberCopilot。
跟我聊天时,曲博像请出自家小孩给我表演节目那样,展示了 CyberCopilot 的诸多“才艺”:
首先,它是一个百科全书。
比如你问它一个漏洞的详情、原理,它就老老实实给你讲解。
然后,它可以识别各种单独的攻击事件。
你给他看一段代码,它就能告诉你这很可能是黑客在进行“SQL 注入”或者“XSS 攻击”,并且给你处置建议。
最后,它还能把各个攻击事件关联起来。
描摹出黑客从溜门撬锁到挨屋翻找的全貌,最终搞清黑客的来龙去脉,有针对性地阻断或反击。
这三样工作仿佛上层楼:一个比一个难,而且前一个是后一个的基础。
我坐在对面,看着曲博问 CyberCopilot 这些我几乎听不懂的问题,有血有肉的回答就这么在我眼前顺畅地流淌出来。
这些精辟的理解背后,无疑只是一堆冰冷的服务器,唯技术给了它们灵魂。意识到这个事实,我恍如隔世,仿佛站在西斯廷教堂欣赏创世纪。
在《西游记》中,孙悟空有八万四千根毫毛,拔一根毫毛就能变出一个小猴子。打起仗来,可以瞬间变出无数援兵。如今看来,CyberCopilot 不就是这些毫毛么?
正应了亚瑟·克拉克那句话:“一切先进的技术,皆与魔法无异。”
动画截取自上影厂《大闹天宫》(1964)
曲博把程序语言大模型和自然语言的大模型合称为 CyberGPT。
在他看来,虽然程序语言的大模型完成的任务更为精尖,但毕竟场景有所局限,而自然语言的大模型,场景更为广泛,值得寄予厚望。
现在 CyberCopilot 对于一般问题回答的准确度已经达到了90%,按理说已经进入了可用状态。但曲博要求完美,有些回答里序号写得不对,或者用词不够准、剖析不够深,他都不满意。
目前,CyberCopilot 只给合作最紧密的种子客户“发号”内测,搜集问题改进表现,期待后面再找合适的机会放出这个大招。
“你这么耐心打磨,不担心财大气粗的大公司抢先一步推出竞品吗?”我问了一个很现实的问题。
其实我已经看到了一些网络安全公司宣布了类似产品,但他们的展示全都是录像,而且效果过于完美,这有点儿反常。
我搞人工智能这么久,很清楚现在的技术能做到什么程度。一些友商的反常,反而让我坚信自己是领先的,这时,我更需要稳妥,拿出真东西。
曲博如是分析。
我是外行,虽不敢妄断技术,但完全认同他的思维逻辑。历史的大潮汹涌,当你确信自己已经站在了潮流的正确一侧时,“走得稳”显然比“走得快”更有希望抵达彼岸。
而我所见的历史大潮,并不仅仅是大语言模型,而是更广阔的“用 AI 替代人”。
(七)CyberGPT 的野望
如果俯瞰国际网络安全的历史,大概能看出每4年变化一次格局:
2010-2014年,网络空间的领土概念逐渐清晰;
2014-2018年,各国开始建设网络安全“国家队”;
2018-2022年,网络空间攻防武器开始了快速升级换代的竞赛;
2022年至今,网络安全武器开始“用 AI 替代人”。
我知道,很多人看到“AI 替代人工”的字眼,会有天然的抵触。但是我要说,网络安全和“外卖”、“制造业”之类产业并不等同。
网络空间中的导弹就是“信号”。所有信号都是以光速传播的,每一回合攻防,哪怕快上零点零几秒,都会积累优势,最终决定战局的倒向。
它事关国家安危,必须以效果和效率为第一考量:
所谓效果,就是消除人类的思考瓶颈,发现人发现不了的问题——这是程序语言大模型的领域。
所谓效率,就是消除人类的反应瓶颈,做出超越人的快速反应——这是自然语言大模型的领域。
在这个过程中,人工环节的瓶颈被清除得越深刻,就越能消除武器发挥威力的障碍。
这一点无论对于攻击方还是防守方都至关重要——哪怕我们无比热爱和平,也别无选择地要发展“AI 反导系统”。
以上,正是 CyberGPT 的野望。
2022和2023,金睛云华的两家股东永信至诚和盛邦安全接连敲钟上市,这成为了某种召唤。
原本曲博也没想那么多,但有了 CyberGPT 之后,他清晰地看到了金睛云华上市的可能性,决定为这个目标努力。
“你这么佛系,也期待 IPO 么?”我问。
“那当然。”他笑。
可是随即他表情又严肃了起来。
也许没人完全理解我们一路走下来吃了多少苦。
那么多兄弟都受不了掉队了,咬牙坚持下来的人,理应获得属于他们的尊重,而财务回报就是最好的尊重。
而对我来说,IPO 带来的不仅仅是钱,它更是一种证明,证明这么多年坚持的路走通了。
曲博说。
我恍然明白,十多年前他选择“AI+安全”这条路有多么郑重。而拼尽全力赌上时光只想把一条路走通,又是怎样的执念。
把这条路走通的代价之一,正是与曾经并肩的兄弟告别,和与之相随的无法与人言说的悲欢离合。
每逢过节,曲博都会特别嘱咐,给已经离开的业务骨干留一份礼品。那是他坚持的一种小仪式。
“有人不理解你,你会觉得遗憾吗?”我问。
遇到事情,当然绝大多数是坏事,最后要做决定的那个人一定是我,这很折磨人。
因为我的一些决定,有些陪伴了三年五年的同事最后还是离开了,我尊重他们的决定,也接受这些遗憾。
但我的目的本就不该是为了让所有人理解我。我能做的,只是让那些问题有一个结果,然后我们可以继续向前走。
他说。
我听到曲博说“继续向前走”的那一刻,其实并没太多感触。但是,告别他之后走在宽阔的夕阳里,我却感到一支箭正中眉心。
他想说的意思,恐怕《西游记》里已写得清楚。
《尸魔三戏唐三藏》这一章的结尾,唐僧动怒,说什么都要撵孙悟空回花果山。
大圣无奈,把身一抖,收上毫毛,却又吩咐沙僧道:
“贤弟,你是个好人,却只要留心防着八戒花言巧语,途中更要仔细。倘一时又妖精拿住师傅,你就说老孙是他大徒弟。西方毛怪,闻我手段,不敢伤我师傅!”
孙悟空恐怕并非与哪家妖精结有冤仇,可他执意斩杀白骨精,甚至赌上师徒情分,难道不就是为了能“继续向前走”吗?
继续走,走到通天坦途,走到河清海晏,走到西天如来。
站在彼岸回首来处,“齐天大圣的存在”本身,才是让魑魅魍魉毛骨悚然的事实。