Thumbnail for 中共數據帝國全面崩潰!10PB洩密真相、殲20總設計師落馬、AI產業三重詛咒——從軍工腐敗到學術造假,揭秘14億人數據如何淪為20美元地攤貨,習近平親手埋葬中國科技未來的完整內幕 by 一个狠人

中共數據帝國全面崩潰!10PB洩密真相、殲20總設計師落馬、AI產業三重詛咒——從軍工腐敗到學術造假,揭秘14億人數據如何淪為20美元地攤貨,習近平親手埋葬中國科技未來的完整內幕

一个狠人

16m 53s139 words~1 min read
YouTube auto captions
Transcript source

YouTube auto captions

This transcript was extracted from YouTube's auto-generated caption track. The transcript below is server-rendered so it can be read, searched, cited, and shared without opening the original YouTube player.

Use this transcript
Related transcript hubs

[0:00]观物如实,拒绝碎片认知。这两天的甚嚣尘上的是中国数据中心又丢了这个10PB的数据。 这个消息不用想肯定是假的。为啥呢?我跟大家说啊,10PB呢差不多是10000TB这个数据量了。 即使每秒钟可以传输1GB的数据,这已经非常快了,这基本上是达不到的。 传完这个10PB的数据也需要2778个小时,约合3.86个月。 不仅如此,获取这些数据呢得需要2TB的硬盘5000块,如果是4TB硬盘呢得需要2500块。 这是一个超大型的一个存储矩阵了。大家想一下,假如在3.86个月不间断的以每秒一个G的速度获取数据,这就不叫偷数据中心了,这是帮他们中共数据中心搬家了已经是。 而且我相信即使中共这个系统再傻逼,也不可能这么大的数据流量,让你一直跑他妈三个多月将近四个月时间。 所以不论是从接收这一端还是需要准备的硬件条件上来看呢,这都不可能,属于是一眼假的消息。 但是这不耽误中共的数据漏成筛子这个事实。最近大家呢,可能也看到了,中共抓那个歼20的总设计师,然后呢中国航空科技集团那个董事长啥的也都抓了。 其实中共的数据跟这个抓人呢,是同一个逻辑,所以我今天就把丢数据跟中共的科技管僚系统一起说。 中共的数据管理从上到下都是混乱的,同时中共的数据质量也充满着海量的垃圾。 因此呢,我们就看到了一个非常好玩的景象,那就是核心的数据库天天他妈丢数据,然后呢假数据跟垃圾数据中共自己天天用。 不仅如此,这帮人还天天制造这个假数据和垃圾数据,然后由于中共的数据管理高度集中化,这导致了中共的数据中心一旦被攻破,你想要啥就有啥。 我先来说说中共这个数据管理工作为什么垃圾啊,这个事的脉络跟时间线是这样的。 中共先是在2019年在中共的十九届四中全会的公报里边,他们把数据列为了第五大生产要素,跟土地、劳动力、资本并列。 其实当时提出这个玩意呢,还有一个背景,就是要找一个土地财政的一个替代性工具,那么既然是土地财政的替代性工具,就要满足一个指标,那就是垄断。 中共是怎么想的呢?他们想的是只要一垄断数据,就可以创造出这个赛博土地。 数据呢还可以无限的被复制,无限的变现。其实中共早在2019年就想把14亿人产生的这个数字行为,变成一个新型的数字城投。 然后财政部紧跟着就出台了规定,允许国有企业把数据资产计入到资产负债表,然后呢各地的地方政府也纷纷响应,设立了国有数据集团。 建立所谓的公共数据授权运营平台。通俗点来说呢,就是把老百姓的户籍数据、出行轨迹、医疗记录、电费账单,这些本来属于全社会的数据,直接打包授权给了国资背景的数据城投公司。 然后呢让他们确权,确权给他们干嘛呢?以此发行数据的ABS,也就是资产支持证券,还是去金融市场套现。 这套玩法的本质就是把全社会几十年积累的数字行为,全部变成中共的党产。 然后再把这个资产的价格,留给金融市场来背书。数据的确权呢,归中共,融资的收益呢来填这个财政窟窿。 而数据被商业化使用的高昂代价与被持续监管的风险呢,是由14亿普通民众承担的。 逻辑链条非常清晰吧,但这只是动机的第一层。 中共加强所谓的数据集中管理,是从什么时候开始的呢?是从一件事开始的,就是滴滴事件。 2021年滴滴在美国上市后仅三天之内,就被网信办启动了所谓的网络安全审查。 最终的结果大家都知道了,天价罚款80.26亿,外加上呢从纽交所强制退市。 中共自己的解释就是违规收集个人信息。滴滴案呢,就确立了一个非常傻逼的先例,那就是在中国,任何经手信息基础设施的平台,无论自己投入了多少资本去建设,这些产生的数据呢,都只是中共数据资产的临时商业代管人。 数据的说有权主张不在法律,也不在资本,在枪杆子。一纸行政命令你的数据就归他了。 中共呢,他只是把抢劫这个老手艺放在数据权上而已,又干了一遍。接下来中共的国家数据局就横空出世了,还是一个副部级的一个单位。 挂在哪呢?挂在发改委下边,这个行为特征是谁的行为特征?傻逼习近平啊。 这傻逼可爱设局了,前两年还设了一个什么民营经济发展局嘛。 我记得好像23年设的还是24年设的,忘了。不设这个傻逼局还好,设完之后就开始远洋捕捞了。 到了今年连胖东来都躲不过去了,所以大家可以看到,只要这个傻逼习近平一设立啥局,对应这个行业呢,管保就完蛋。 我很期待这个傻逼哪天设一个习奥帝健康的生命保卫局,看看自己的矛能不能攻自己的盾。 好,我们继续说回来啊。从此以后中共的数据监控的颗粒度呢就不再是人群了,而是每一个个体的微观行为链条。 包括你的户籍档案、你的医疗记录、你的生物特征这些,并且呢,这些数据全部汇集到一个地方,这个地方就叫国家级的算力中心。 这就是目前整个中共数据管理的一个体系。那么问题来了,谁构建了中共这个数字集权体系? 其实答案非常明确,就是中共这帮所谓的纪数官僚嘛。但是中共现在的技术官僚是个什么德行呢? 我们就说说管理跟监控最严的军工系统的技术官僚,如果军工系统都是这个犊子样的话,那中共其他的所谓数据安全大家就知道有多扯淡了。 前两天呢,歼20战斗机那个总设计师,中国科学院院士杨伟,别笑啊,这傻逼真叫这个。 这个杨伟这个名字呢从官方名录跟那个媒体档案中被撤销了。不用说肯定又是贪腐。 与他处于同一个利益生态圈的中国航天科工那个原董事长谭瑞松,还有总经理郝照平,也接连被查或者被免职。 去年不是那个航母的总设计师被抓了吗?今年呢就是辽宁舰跟山东舰造船这个集团的董事长胡文鸣,也因为受贿跟滥用职权被判了13年。 这帮人是什么?这帮人是实际控制着数字帝国最核心,也就是军事科技基础设施的这帮人,他们在干什么? 在贪腐,连中共军队掌握最核心机密的一群人,你指望这帮人能管好中国的那个数据安全,那可拉倒吧。 在他们这数据也只是资产而已,而且中共的科技官僚的系统的腐败呢,也不仅仅是军队是腐败的。 从科研到学术都是这个逼样。中国的院士体制本来就是一个学术的荣誉系统,但是高度行政化的资源分配逻辑之下,院士这个头衔呢,早就变成贪腐工具了。 因为它对应的是什么?它对应的是权力,什么权力?国家级课题的立项审批权、重点实验室控制权、核心学术期刊的发表权。 只要中共体系内有权力,就有贪腐路径,这个不用替他操心。像这些学术门阀们通过这套系统,完全垄断了科研资源的流向。 底层这些学术青年们要么依附门阀,要么就寸步难行,这就是现实。结果是什么? 结果就变成科研的目的就一个,套他们中共的钱,剩下的说啥都扯淡。我们就通过一个数据就知道中共打造这个体系有多扯。 就在2023年,全球被撤稿的学术论文,历史性的突破了一万篇,然后呢,在这一万篇里边,中国的学者占据了压倒性的主导地位。 这说明什么?这说明中共的学术圈它不是一个个人道德问题了,这是系统性的产业化的造假。 BMJ用机器学习模型扫描发现什么呢?发现超过36%的中国机构癌症研究论文,被标记为具有论文工厂的高度典型特征。 这帮中共医学论文的造假者是怎么造假的?造的非常傻逼,这帮造假者甚至凭空捏造了七种根本就不存在的幽灵细胞系。 然后拿这个幽灵细胞系炮制了数百篇的文献。美国测试与材料协会单次批量撤回了147篇涉及工程材料的中国论文。 也就是说不论是工程领域还是医疗系统,这些最需要学术严谨的地方呢,这帮都他妈造假,还有一个特别卡中共脸的数据。 就是在人工智能这个领域内的论文,全球被撤稿的论文的第一作者72.2%明确隶属于中国机构。 这个数字就意味着什么?那就是中共这帮傻逼的技术官僚,不仅不能保证中国所谓的的数据安全,还是他妈最大的垃圾数据的造粪机。 这是这套系统的顶层生态,而这套系统底层呢,就是那些拿着低薪在外包公司里边替中共所谓的安全部门维护监控,干活的这些年轻程序员。 然后呢,这套人结构要执行什么?去执行那个绝对安全、绝对监控的命令,然后就合成了一个特别好玩的化学反应。 发生的就是中共在其他领域一直在干的事,那就是中共在数据管理上跟其他行业没有任何的本质不同,那就是重数量归集。 然后归集之后的管理基本上等于零,就在这种病态的治理逻辑之下,中共干的是一边延称商业企业,垄断数据的销售权。 一边把全社会的数据强行汇集到少数几个中心化的政务平台之上,这从系统工程的角度来看,就制造了全球最大的单点故障。 你把它攻破了,啥数据都有了,然后还把这些巨型的数据库交给了谁呢? 交给了这些低薪的外包,纪律涣散的一个运维团队来管理。结果在2026年的1月1号,全世界都知道一个事了。 国际顶级的网络安全员Bob Diachenko和SCybernews团队一起披露了一个事件。这个事件被称为Megaleak,这是一起史诗级的数据泄露事件。 泄露了什么呢?泄露了87.3亿条中国公民的高度敏感记录,这些记录被毫无防护的被暴露在公网上,持续时间长达三周。 任何掌握基础扫描工具的人都可以直接访问。这些数据还不是粗糙的服务器日志,而是一个经过精心清洗,高度结构化的一个超级资源库。 这87.3亿条的信息被系统性的划分为163个独立索引,覆盖了从以手机号为中心,到以身份证为中心的全维度画像。 里边要什么有什么,什么全名啊,家庭住址啊,出生日期啊。这些还只是最基础的信息。 更猛的就是数以亿计的明文密码,没有加密,直接可读。还有大量的私人的电子邮件内容。 这个国家级敏感数据的一个巨型集群是怎么被攻破的呢?其实没有任何高超的黑客技术,只是运维人员犯了一个网络安全领域最基本的错误。 这个错误就是9200通信端口对外直接开放,不需要任何的身份验证,也没有设置任何的入口密码,整个数据库裸奔,就是这个状态。 所以顺着网线这么一查,这根本也不是什么黑客的高超技术,而就是什么?而就是整个数据安全体系换算造成的。 你中共费了这么多心机,把全国数据归到一起,结果呢,黑客都没干啥,自己就漏了。更惨的是什么? 更惨的是这批数据现在已经被转移到了防弹托管的服务商手里。什么是防弹托管? 这地方就是黑客专属的数字避风港,警察管不着,法院封不掉。就算是国家层面的网警想端掉它,那也是老虎吃天无从下口。 同样也就意味着这批数据已经流入到了地下黑产,并且这87.3亿条的中国人的行为数据信息,变成了国际市场上最廉价的商品。 大家知不知道这笔数据多少钱?20美元,几杯咖啡的钱,这就是中共管中国人信息管出的效果。 Megaleak这个事件之前呢,还有一个案例,让整个情报界为之震惊,就是著名的安洵内部文件泄露事件。 安洵信息是持有中共保密局二级资质的核心网络站的外包承包商,这家公司呢,也是有军方背景的。 它直接服务于中共的公安部,还有国家的安全部,它里边有很多业务,包括远程的木马操控啊,无感知的移动端的一个监控啊。 反正目的就一个,大肆窃取境外的情报,还有呢,就是对海外的异见人士实施精准的一个定位打压。 然后呢,这家国家级以黑客技术的公司呢,他们的企业的内部的数百兆数据,包括白皮书、商业报价单,还有就是员工的微信群聊记录,直接就被抛在开源平台GitHub上。 这些被泄露的聊天记录描述是什么呢?就是底层技术员工极其微薄的一个薪资。 在工作时间里边,在群里边公开讨论这个聚众赌博,然后对越权入侵不在目标名单内的系统呢,视若无睹。 我们看一下这个图景是个什么图景,就是掌握着国家零日漏洞的攻击武器,手握上亿民众敏感数据的核心黑客。 这帮人呢,同时也是受着最残酷剥削的一帮人,前一阵子跟中国卖命哪一个黑客外包组织来的,我忘了,还欠人黑客的薪水,就是这么套玩意。 所以安洵事件这场史诗级的泄露,极有可能就是由心怀怨恨的内部员工所为的,所以中共的安全体系跟其他方面做的是一模一样的。 就是纸面上、嘴上,同墙铁壁,实际上就是豆腐渣,一碰就碎。好,现在的时间线呢,来到最关键的地方。 如果前面说的是过往的伤害,那么接下来要说的就是中共的未来产业的一个死刑判决。 现在所有的人工智能的终极目标是什么?那就是通用人工智能,也就是我们经常听到的AGI。 那么中共这套信息体制就会带来三条因果链,并且这三条因果链正在以不可逆的方式在饿死中国的技术未来。 我把它叫做三重结构性诅咒。第一层诅咒就是数据党有化造成的不可逆的结构性的一个缺氧。 大模型的核心生命力是什么?就是数据的多样性、真实性跟流动性。这里边包含了医疗的电子档案,包含了金融的封控数据,还有这个宏观的高频数据等等吧。 这恰恰就是训练真正有垂直行业突破能力的AI最需要的底层燃料。现在中共整个学术体系都干嘛? 在捞钱呢,造假呀,这帮人在底层的燃料上在干嘛?在生产一大堆被标注成权威的垃圾数据,这帮就是中共的学术权威嘛。 然后在这帮人孜孜不倦的一个造假之下,底层数据质量是更难识别了,更难识别了,你这玩意可咋整。 再进一步说,在数据党有化之后,一家技术型的民营AI初创公司,他们的算法多厉害重要吗? 根本就不重要,虽然他不生产垃圾,但他可能连数据都没法获取,除非他在政治上选择站队中共。 但是如果选择战队呢,就得去生产垃圾了。因此整个市场竞争的淘汰标准就发生了极大的扭曲。 那就是不是谁的算法最强,而是谁跟天网工程的政府采购关系最深。所以那些真正有颠覆性的技术创新力量呢,就一定会倍劣币驱逐良币。 AI的整个产业都会沦为整个政权的附庸。第二层诅咒就是学术的地基造假与知识蒸馏的一个必然陷阱。 如果你要在AGI的时代真正实现这个突破的话,需要的是极度纯净的原始科学数据的积累,再加上形式上的算法创新。 但是中国本土产出那个庞大的文献库,全都是被篡改的实验数据。中共连最严谨的医学数据,都能给你造出一个意识流的癌细胞。 可见中国的整个学术体系比癌细胞还毒。如果把这些数据作为AI模型的训练燃料的话,那就是在夜以继日的为这个AI吃剧毒。 这真没啥区别,中共那些AI公司知不知道?当然知道。于是这帮人就大量的使用的蒸馏技术。 为了在基准测试中缩短与OpenAI跟Anthropic这个差距,他们现在怎么干呢? 动用数以万计的一个隐秘账号,进行多达1600多万次级别的大规模的API调用,系统性的从西方的闭源模型中榨取这个认知推理数据。 这种知识蒸馏呢,其实在技术上也没啥错,它暴露了一个无法回避的现实,就是在缺乏独立可信的学术底座的情况下,中国的AI选择了战略性的依附。 这是不可避免的,根本就不可能达成任何的所谓的自主突破。所以呢,就不用信中共吹那个牛逼了。 第三层诅咒算是中共给自己挖的最大的坑了。中共现在在数据端上是怎么设计的?那就是边生成数据边审查数据。 这种设计及审查的制度会加速让模型崩溃。中共针对大模型训练搞了一个《暂行办法》的硬性法规。 里边规定大模型必须严格服从社会主义核心价值观,如果在训练语料中包含被认定为颠覆性的历史或者是政治内容超过5%的话,就面临全盘被清洗的命运。 也就是这些数据完全无效,你连用都用不了。咱们先说这大模型脑子,在训练的时候呢,如果你非要死死的掐住它的脖子,给他疯狂加各种防红线的一个紧箍咒。 那在AI思考的时候呢,正常的脑回路就会被这些塞进去的规矩给粗暴的打断AI,结果就是好好的AI被训练成了一个审查脑。 不管你问他啥,他的第一反应都是这玩意是我能说的吗?这就是我们经常讲的垃圾进垃圾出的根本原因。 然后还有一个东西,就是中共那个网络防火墙,他把模型崩溃的进程呢又给大大提速了。 因为这玩意呢,把全球最顶的且低成本的一个优质数据呢给死死挡在外面,然后再看看墙内这个数据什么情况啊。 经过傻逼习奥帝这十几年删删减减,现在简中互联网还能剩下点啥。 除了到处骗点击的营销号的这些废话,就是那些干巴巴的连废话都不如的党八股。 用这种又假又空的东西去AI,国内大模型现在面临的根本也不是算力瓶颈,而就是高质量的口粮数据的直接断供。 模型遇到这种情况都会被活生生的饿死在数据沙漠里边,或者是另一个极端,就是数据垃圾吃多了,浑身都是基础病。 肝硬化、肾结石这些,然后还肥胖。反正中国的模型呢,要么就是极度的营养不良,要么呢就是垃圾食品吃多了肥胖,外加满脸痘的如花模型。 这完了?还没完。当第一代被阉割的模型生成的合成数据,被拿去训练第二代模型的时候,然后第二代模型生成的合成数据,被拿去训练第三代的时候,整个的递归审查闭环就形成了。 前沿的计算机科学家最近发现了一个大模型的致命弱点,叫做模型崩溃。你可以这么理解,就是如果大模型一直用AI自己生成的数据去进行迭代训练的话,那么它的创造力呢,就会断崖式的下降。 它会慢慢忘掉真实人类那些虽然小众,但是极具灵魂的奇思妙想。最后呢,整个AI就会坍缩成一个平庸的废点。 在中共这种的监管强度之下,大模型本身一开局就是一个地狱开局。 中共不仅有高墙隔绝了外边的活水,内部呢,更是一种同质化的语言。大家说的、写的文章完全就是一个安全模板出来的。 用这种残缺不全,被反复咀嚼过无数遍的声音去AI。这在干嘛? 就是在搞思想上的近亲繁殖,只要一进行繁殖,一出来的肯定是弱智,这不用想。因此在这种极度贫乏的数据里进行内部循环的话,只会让模型的崩溃比别人更快的。 所以不仅仅是中共的数据安全垃圾,是涉及到数据的各个环节都垃圾。从数据制造,到数据监管,再到数据应用,覆盖所有的数据层面。 中共简直就是全方位无死角的六边形垃圾,所以别对中共这些AI产业抱有任何幻想。 这就是中共硬件的大跃进跟软件大清洗的原因。好了,今天就先跟大家BB到这里,如果大家喜欢我节目的话,请点击下方小铃铛。 如果大家想支持我的话,可以加入会员频道,会员频道每个月有4期的深度节目,欢迎加入狠人团伙,我们下期节目再见。

Need another transcript?

Paste any YouTube URL to get a clean transcript in seconds.

Get a Transcript