TubeScript Get a Transcript

Thumbnail for 中共數據帝國全面崩潰！10PB洩密真相、殲20總設計師落馬、AI產業三重詛咒——從軍工腐敗到學術造假，揭秘14億人數據如何淪為20美元地攤貨，習近平親手埋葬中國科技未來的完整內幕 by 一个狠人

中共數據帝國全面崩潰！10PB洩密真相、殲20總設計師落馬、AI產業三重詛咒——從軍工腐敗到學術造假，揭秘14億人數據如何淪為20美元地攤貨，習近平親手埋葬中國科技未來的完整內幕

一个狠人

16m 53s139 words~1 min read

YouTube auto captions

Transcript source

YouTube auto captions

This transcript was extracted from YouTube's auto-generated caption track. The transcript below is server-rendered so it can be read, searched, cited, and shared without opening the original YouTube player.

Use this transcript

Summarize a YouTube transcript Make study notes Find timestamped highlights Export to Markdown Download transcript files Browse related transcript hubs

Related transcript hubs

Transcript archive Auto Captions hub Chinese transcripts AI transcripts

Watch on YouTube

Share

[0:00]观物如实，拒绝碎片认知。这两天的甚嚣尘上的是中国数据中心又丢了这个10PB的数据。这个消息不用想肯定是假的。为啥呢？我跟大家说啊，10PB呢差不多是10000TB这个数据量了。即使每秒钟可以传输1GB的数据，这已经非常快了，这基本上是达不到的。传完这个10PB的数据也需要2778个小时，约合3.86个月。不仅如此，获取这些数据呢得需要2TB的硬盘5000块，如果是4TB硬盘呢得需要2500块。这是一个超大型的一个存储矩阵了。大家想一下，假如在3.86个月不间断的以每秒一个G的速度获取数据，这就不叫偷数据中心了，这是帮他们中共数据中心搬家了已经是。而且我相信即使中共这个系统再傻逼，也不可能这么大的数据流量，让你一直跑他妈三个多月将近四个月时间。所以不论是从接收这一端还是需要准备的硬件条件上来看呢，这都不可能，属于是一眼假的消息。但是这不耽误中共的数据漏成筛子这个事实。最近大家呢，可能也看到了，中共抓那个歼20的总设计师，然后呢中国航空科技集团那个董事长啥的也都抓了。其实中共的数据跟这个抓人呢，是同一个逻辑，所以我今天就把丢数据跟中共的科技管僚系统一起说。中共的数据管理从上到下都是混乱的，同时中共的数据质量也充满着海量的垃圾。因此呢，我们就看到了一个非常好玩的景象，那就是核心的数据库天天他妈丢数据，然后呢假数据跟垃圾数据中共自己天天用。不仅如此，这帮人还天天制造这个假数据和垃圾数据，然后由于中共的数据管理高度集中化，这导致了中共的数据中心一旦被攻破，你想要啥就有啥。我先来说说中共这个数据管理工作为什么垃圾啊，这个事的脉络跟时间线是这样的。中共先是在2019年在中共的十九届四中全会的公报里边，他们把数据列为了第五大生产要素，跟土地、劳动力、资本并列。其实当时提出这个玩意呢，还有一个背景，就是要找一个土地财政的一个替代性工具，那么既然是土地财政的替代性工具，就要满足一个指标，那就是垄断。中共是怎么想的呢？他们想的是只要一垄断数据，就可以创造出这个赛博土地。数据呢还可以无限的被复制，无限的变现。其实中共早在2019年就想把14亿人产生的这个数字行为，变成一个新型的数字城投。然后财政部紧跟着就出台了规定，允许国有企业把数据资产计入到资产负债表，然后呢各地的地方政府也纷纷响应，设立了国有数据集团。建立所谓的公共数据授权运营平台。通俗点来说呢，就是把老百姓的户籍数据、出行轨迹、医疗记录、电费账单，这些本来属于全社会的数据，直接打包授权给了国资背景的数据城投公司。然后呢让他们确权，确权给他们干嘛呢？以此发行数据的ABS，也就是资产支持证券，还是去金融市场套现。这套玩法的本质就是把全社会几十年积累的数字行为，全部变成中共的党产。然后再把这个资产的价格，留给金融市场来背书。数据的确权呢，归中共，融资的收益呢来填这个财政窟窿。而数据被商业化使用的高昂代价与被持续监管的风险呢，是由14亿普通民众承担的。逻辑链条非常清晰吧，但这只是动机的第一层。中共加强所谓的数据集中管理，是从什么时候开始的呢？是从一件事开始的，就是滴滴事件。 2021年滴滴在美国上市后仅三天之内，就被网信办启动了所谓的网络安全审查。最终的结果大家都知道了，天价罚款80.26亿，外加上呢从纽交所强制退市。中共自己的解释就是违规收集个人信息。滴滴案呢，就确立了一个非常傻逼的先例，那就是在中国，任何经手信息基础设施的平台，无论自己投入了多少资本去建设，这些产生的数据呢，都只是中共数据资产的临时商业代管人。数据的说有权主张不在法律，也不在资本，在枪杆子。一纸行政命令你的数据就归他了。中共呢，他只是把抢劫这个老手艺放在数据权上而已，又干了一遍。接下来中共的国家数据局就横空出世了，还是一个副部级的一个单位。挂在哪呢？挂在发改委下边，这个行为特征是谁的行为特征？傻逼习近平啊。这傻逼可爱设局了，前两年还设了一个什么民营经济发展局嘛。我记得好像23年设的还是24年设的，忘了。不设这个傻逼局还好，设完之后就开始远洋捕捞了。到了今年连胖东来都躲不过去了，所以大家可以看到，只要这个傻逼习近平一设立啥局，对应这个行业呢，管保就完蛋。我很期待这个傻逼哪天设一个习奥帝健康的生命保卫局，看看自己的矛能不能攻自己的盾。好，我们继续说回来啊。从此以后中共的数据监控的颗粒度呢就不再是人群了，而是每一个个体的微观行为链条。包括你的户籍档案、你的医疗记录、你的生物特征这些，并且呢，这些数据全部汇集到一个地方，这个地方就叫国家级的算力中心。这就是目前整个中共数据管理的一个体系。那么问题来了，谁构建了中共这个数字集权体系？其实答案非常明确，就是中共这帮所谓的纪数官僚嘛。但是中共现在的技术官僚是个什么德行呢？我们就说说管理跟监控最严的军工系统的技术官僚，如果军工系统都是这个犊子样的话，那中共其他的所谓数据安全大家就知道有多扯淡了。前两天呢，歼20战斗机那个总设计师，中国科学院院士杨伟，别笑啊，这傻逼真叫这个。这个杨伟这个名字呢从官方名录跟那个媒体档案中被撤销了。不用说肯定又是贪腐。与他处于同一个利益生态圈的中国航天科工那个原董事长谭瑞松，还有总经理郝照平，也接连被查或者被免职。去年不是那个航母的总设计师被抓了吗？今年呢就是辽宁舰跟山东舰造船这个集团的董事长胡文鸣，也因为受贿跟滥用职权被判了13年。这帮人是什么？这帮人是实际控制着数字帝国最核心，也就是军事科技基础设施的这帮人，他们在干什么？在贪腐，连中共军队掌握最核心机密的一群人，你指望这帮人能管好中国的那个数据安全，那可拉倒吧。在他们这数据也只是资产而已，而且中共的科技官僚的系统的腐败呢，也不仅仅是军队是腐败的。从科研到学术都是这个逼样。中国的院士体制本来就是一个学术的荣誉系统，但是高度行政化的资源分配逻辑之下，院士这个头衔呢，早就变成贪腐工具了。因为它对应的是什么？它对应的是权力，什么权力？国家级课题的立项审批权、重点实验室控制权、核心学术期刊的发表权。只要中共体系内有权力，就有贪腐路径，这个不用替他操心。像这些学术门阀们通过这套系统，完全垄断了科研资源的流向。底层这些学术青年们要么依附门阀，要么就寸步难行，这就是现实。结果是什么？结果就变成科研的目的就一个，套他们中共的钱，剩下的说啥都扯淡。我们就通过一个数据就知道中共打造这个体系有多扯。就在2023年，全球被撤稿的学术论文，历史性的突破了一万篇，然后呢，在这一万篇里边，中国的学者占据了压倒性的主导地位。这说明什么？这说明中共的学术圈它不是一个个人道德问题了，这是系统性的产业化的造假。 BMJ用机器学习模型扫描发现什么呢？发现超过36%的中国机构癌症研究论文，被标记为具有论文工厂的高度典型特征。这帮中共医学论文的造假者是怎么造假的？造的非常傻逼，这帮造假者甚至凭空捏造了七种根本就不存在的幽灵细胞系。然后拿这个幽灵细胞系炮制了数百篇的文献。美国测试与材料协会单次批量撤回了147篇涉及工程材料的中国论文。也就是说不论是工程领域还是医疗系统，这些最需要学术严谨的地方呢，这帮都他妈造假，还有一个特别卡中共脸的数据。就是在人工智能这个领域内的论文，全球被撤稿的论文的第一作者72.2%明确隶属于中国机构。这个数字就意味着什么？那就是中共这帮傻逼的技术官僚，不仅不能保证中国所谓的的数据安全，还是他妈最大的垃圾数据的造粪机。这是这套系统的顶层生态，而这套系统底层呢，就是那些拿着低薪在外包公司里边替中共所谓的安全部门维护监控，干活的这些年轻程序员。然后呢，这套人结构要执行什么？去执行那个绝对安全、绝对监控的命令，然后就合成了一个特别好玩的化学反应。发生的就是中共在其他领域一直在干的事，那就是中共在数据管理上跟其他行业没有任何的本质不同，那就是重数量归集。然后归集之后的管理基本上等于零，就在这种病态的治理逻辑之下，中共干的是一边延称商业企业，垄断数据的销售权。一边把全社会的数据强行汇集到少数几个中心化的政务平台之上，这从系统工程的角度来看，就制造了全球最大的单点故障。你把它攻破了，啥数据都有了，然后还把这些巨型的数据库交给了谁呢？交给了这些低薪的外包，纪律涣散的一个运维团队来管理。结果在2026年的1月1号，全世界都知道一个事了。国际顶级的网络安全员Bob Diachenko和SCybernews团队一起披露了一个事件。这个事件被称为Megaleak，这是一起史诗级的数据泄露事件。泄露了什么呢？泄露了87.3亿条中国公民的高度敏感记录，这些记录被毫无防护的被暴露在公网上，持续时间长达三周。任何掌握基础扫描工具的人都可以直接访问。这些数据还不是粗糙的服务器日志，而是一个经过精心清洗，高度结构化的一个超级资源库。这87.3亿条的信息被系统性的划分为163个独立索引，覆盖了从以手机号为中心，到以身份证为中心的全维度画像。里边要什么有什么，什么全名啊，家庭住址啊，出生日期啊。这些还只是最基础的信息。更猛的就是数以亿计的明文密码，没有加密，直接可读。还有大量的私人的电子邮件内容。这个国家级敏感数据的一个巨型集群是怎么被攻破的呢？其实没有任何高超的黑客技术，只是运维人员犯了一个网络安全领域最基本的错误。这个错误就是9200通信端口对外直接开放，不需要任何的身份验证，也没有设置任何的入口密码，整个数据库裸奔，就是这个状态。所以顺着网线这么一查，这根本也不是什么黑客的高超技术，而就是什么？而就是整个数据安全体系换算造成的。你中共费了这么多心机，把全国数据归到一起，结果呢，黑客都没干啥，自己就漏了。更惨的是什么？更惨的是这批数据现在已经被转移到了防弹托管的服务商手里。什么是防弹托管？这地方就是黑客专属的数字避风港，警察管不着，法院封不掉。就算是国家层面的网警想端掉它，那也是老虎吃天无从下口。同样也就意味着这批数据已经流入到了地下黑产，并且这87.3亿条的中国人的行为数据信息，变成了国际市场上最廉价的商品。大家知不知道这笔数据多少钱？20美元，几杯咖啡的钱，这就是中共管中国人信息管出的效果。 Megaleak这个事件之前呢，还有一个案例，让整个情报界为之震惊，就是著名的安洵内部文件泄露事件。安洵信息是持有中共保密局二级资质的核心网络站的外包承包商，这家公司呢，也是有军方背景的。它直接服务于中共的公安部，还有国家的安全部，它里边有很多业务，包括远程的木马操控啊，无感知的移动端的一个监控啊。反正目的就一个，大肆窃取境外的情报，还有呢，就是对海外的异见人士实施精准的一个定位打压。然后呢，这家国家级以黑客技术的公司呢，他们的企业的内部的数百兆数据，包括白皮书、商业报价单，还有就是员工的微信群聊记录，直接就被抛在开源平台GitHub上。这些被泄露的聊天记录描述是什么呢？就是底层技术员工极其微薄的一个薪资。在工作时间里边，在群里边公开讨论这个聚众赌博，然后对越权入侵不在目标名单内的系统呢，视若无睹。我们看一下这个图景是个什么图景，就是掌握着国家零日漏洞的攻击武器，手握上亿民众敏感数据的核心黑客。这帮人呢，同时也是受着最残酷剥削的一帮人，前一阵子跟中国卖命哪一个黑客外包组织来的，我忘了，还欠人黑客的薪水，就是这么套玩意。所以安洵事件这场史诗级的泄露，极有可能就是由心怀怨恨的内部员工所为的，所以中共的安全体系跟其他方面做的是一模一样的。就是纸面上、嘴上，同墙铁壁，实际上就是豆腐渣，一碰就碎。好，现在的时间线呢，来到最关键的地方。如果前面说的是过往的伤害，那么接下来要说的就是中共的未来产业的一个死刑判决。现在所有的人工智能的终极目标是什么？那就是通用人工智能，也就是我们经常听到的AGI。那么中共这套信息体制就会带来三条因果链，并且这三条因果链正在以不可逆的方式在饿死中国的技术未来。我把它叫做三重结构性诅咒。第一层诅咒就是数据党有化造成的不可逆的结构性的一个缺氧。大模型的核心生命力是什么？就是数据的多样性、真实性跟流动性。这里边包含了医疗的电子档案，包含了金融的封控数据，还有这个宏观的高频数据等等吧。这恰恰就是训练真正有垂直行业突破能力的AI最需要的底层燃料。现在中共整个学术体系都干嘛？在捞钱呢，造假呀，这帮人在底层的燃料上在干嘛？在生产一大堆被标注成权威的垃圾数据，这帮就是中共的学术权威嘛。然后在这帮人孜孜不倦的一个造假之下，底层数据质量是更难识别了，更难识别了，你这玩意可咋整。再进一步说，在数据党有化之后，一家技术型的民营AI初创公司，他们的算法多厉害重要吗？根本就不重要，虽然他不生产垃圾，但他可能连数据都没法获取，除非他在政治上选择站队中共。但是如果选择战队呢，就得去生产垃圾了。因此整个市场竞争的淘汰标准就发生了极大的扭曲。那就是不是谁的算法最强，而是谁跟天网工程的政府采购关系最深。所以那些真正有颠覆性的技术创新力量呢，就一定会倍劣币驱逐良币。 AI的整个产业都会沦为整个政权的附庸。第二层诅咒就是学术的地基造假与知识蒸馏的一个必然陷阱。如果你要在AGI的时代真正实现这个突破的话，需要的是极度纯净的原始科学数据的积累，再加上形式上的算法创新。但是中国本土产出那个庞大的文献库，全都是被篡改的实验数据。中共连最严谨的医学数据，都能给你造出一个意识流的癌细胞。可见中国的整个学术体系比癌细胞还毒。如果把这些数据作为AI模型的训练燃料的话，那就是在夜以继日的为这个AI吃剧毒。这真没啥区别，中共那些AI公司知不知道？当然知道。于是这帮人就大量的使用的蒸馏技术。为了在基准测试中缩短与OpenAI跟Anthropic这个差距，他们现在怎么干呢？动用数以万计的一个隐秘账号，进行多达1600多万次级别的大规模的API调用，系统性的从西方的闭源模型中榨取这个认知推理数据。这种知识蒸馏呢，其实在技术上也没啥错，它暴露了一个无法回避的现实，就是在缺乏独立可信的学术底座的情况下，中国的AI选择了战略性的依附。这是不可避免的，根本就不可能达成任何的所谓的自主突破。所以呢，就不用信中共吹那个牛逼了。第三层诅咒算是中共给自己挖的最大的坑了。中共现在在数据端上是怎么设计的？那就是边生成数据边审查数据。这种设计及审查的制度会加速让模型崩溃。中共针对大模型训练搞了一个《暂行办法》的硬性法规。里边规定大模型必须严格服从社会主义核心价值观，如果在训练语料中包含被认定为颠覆性的历史或者是政治内容超过5%的话，就面临全盘被清洗的命运。也就是这些数据完全无效，你连用都用不了。咱们先说这大模型脑子，在训练的时候呢，如果你非要死死的掐住它的脖子，给他疯狂加各种防红线的一个紧箍咒。那在AI思考的时候呢，正常的脑回路就会被这些塞进去的规矩给粗暴的打断AI，结果就是好好的AI被训练成了一个审查脑。不管你问他啥，他的第一反应都是这玩意是我能说的吗？这就是我们经常讲的垃圾进垃圾出的根本原因。然后还有一个东西，就是中共那个网络防火墙，他把模型崩溃的进程呢又给大大提速了。因为这玩意呢，把全球最顶的且低成本的一个优质数据呢给死死挡在外面，然后再看看墙内这个数据什么情况啊。经过傻逼习奥帝这十几年删删减减，现在简中互联网还能剩下点啥。除了到处骗点击的营销号的这些废话，就是那些干巴巴的连废话都不如的党八股。用这种又假又空的东西去AI，国内大模型现在面临的根本也不是算力瓶颈，而就是高质量的口粮数据的直接断供。模型遇到这种情况都会被活生生的饿死在数据沙漠里边，或者是另一个极端，就是数据垃圾吃多了，浑身都是基础病。肝硬化、肾结石这些，然后还肥胖。反正中国的模型呢，要么就是极度的营养不良，要么呢就是垃圾食品吃多了肥胖，外加满脸痘的如花模型。这完了？还没完。当第一代被阉割的模型生成的合成数据，被拿去训练第二代模型的时候，然后第二代模型生成的合成数据，被拿去训练第三代的时候，整个的递归审查闭环就形成了。前沿的计算机科学家最近发现了一个大模型的致命弱点，叫做模型崩溃。你可以这么理解，就是如果大模型一直用AI自己生成的数据去进行迭代训练的话，那么它的创造力呢，就会断崖式的下降。它会慢慢忘掉真实人类那些虽然小众，但是极具灵魂的奇思妙想。最后呢，整个AI就会坍缩成一个平庸的废点。在中共这种的监管强度之下，大模型本身一开局就是一个地狱开局。中共不仅有高墙隔绝了外边的活水，内部呢，更是一种同质化的语言。大家说的、写的文章完全就是一个安全模板出来的。用这种残缺不全，被反复咀嚼过无数遍的声音去AI。这在干嘛？就是在搞思想上的近亲繁殖，只要一进行繁殖，一出来的肯定是弱智，这不用想。因此在这种极度贫乏的数据里进行内部循环的话，只会让模型的崩溃比别人更快的。所以不仅仅是中共的数据安全垃圾，是涉及到数据的各个环节都垃圾。从数据制造，到数据监管，再到数据应用，覆盖所有的数据层面。中共简直就是全方位无死角的六边形垃圾，所以别对中共这些AI产业抱有任何幻想。这就是中共硬件的大跃进跟软件大清洗的原因。好了，今天就先跟大家BB到这里，如果大家喜欢我节目的话，请点击下方小铃铛。如果大家想支持我的话，可以加入会员频道，会员频道每个月有4期的深度节目，欢迎加入狠人团伙，我们下期节目再见。

MORE TRANSCRIPTS

Thumbnail for Assamese story/Assamese gk/Assamese motivational gk story/gk story Assamese/gk /Assamese g k/story by মই পাৰিম Motivational speech

Assamese story/Assamese gk/Assamese motivational gk story/gk story Assamese/gk /Assamese g k/story

মই পাৰিম Motivational speech

Thumbnail for Quick Guide to Aquatic Planet Pack DLC - Oxygen Not Included by Grind This Game

Quick Guide to Aquatic Planet Pack DLC - Oxygen Not Included

Grind This Game

Thumbnail for Трейдинг с нуля: объяснил ПРОСТО каждую деталь by КриптоБош

Трейдинг с нуля: объяснил ПРОСТО каждую деталь

КриптоБош

Need another transcript?

Paste any YouTube URL to get a clean transcript in seconds.

Get a Transcript