关于 ChatGPT 的个人见解·三 Deepseek

《当 AI 发展到当下时点》——deepseek的出世对其他大模型厂商影响的传闻与个人看法

deepseek 在春节前发布的 R1 模型让英伟达尝到了卖空的力量。数据模型相关产业链的佼佼者——美国，也尝到了被人快追赶上的滋味。

我观察到的是在互联网的加持下传播变得更容易，事实与宣传上一致的方向让赞誉疯狂涌入，一些文学上的技术优化让母语为中文的人更有心理认同感，而那些生成的文章也是寻常人绞尽脑汁也写不出来的句子，大有如是子之作品可凭此一作富贵的味道。而其他种种子任务的测试也是好过 OpenAI 提供的 chatgpt，第一次让人们直观看到一个 LLM 是如何思考的，种种的新奇让人们开始对其加分，直到他开始变得卡顿并丢失响应。

虽然公告没明说攻击方是谁，但明眼人都知道应该是西方某大国，必经戳破了多卡多人才多资金多数据中心多投入的大模型准入门槛泡沫。大模型不再是闭源的，可以不是商业性的，可以是大家都可接触的。在可商用的狂潮前，种种合规或api工具形成的护城河就是一条干涸的小溪。能力强还没有商业授权费用，你需要做的就是花费部署与维持的费用。模型的钱，他们告诉你这是全人类的使命。公关稿的干巴巴回应抵挡不了充满热情的科技极客的脚步，当体验博文或视频被放出来后就会引爆平民核弹。

开源的模型、评分表现极好、耗费相对并不多。任意一点就可以极大提高人们探究自部署的兴趣，何况这种三点全包的情况。人们用极大的热情涌入 deepseek 网页去交流，去实验，去求证。商业公司的嗅觉必定不会弱，国内国外众多大公司基于自己基础设备部署了模型供人使用，在原版模型网站被攻击的状态下，各家公司开始用拉人、初期免费、给予定额的方式拉人使用自家业务。X基公司用了互联网最喜欢的人头车方式，无论是视频还是文字发帖，其评论区变成了X基公司拉人的团建现场，甚至空说无物的视频也在告诉你，既然原版网站无法使用不妨试试XX公司的部署，以下是我的邀请码…。至于某个商人用各种笔墨来描述攻击方的手段、流量等数据，但个人觉得 deepseek 公司的网站服务并没有像这位商人自己描述或表述给他家所第一印象解读的那样，就其描述的诚实理解，这位商人“该是承载攻击面的英雄”，但个人觉得其不过是一种吸睛言论配套的行为，毕竟后来他开始宣传自家搜索引擎带的 R1 模型对话，结合这位商人之前的种种劣迹，无非一种噱头。

人们说距离产生美，当你连续体验一项服务后，你就能清楚地抓到这项服务的弱点及局限之处。就我个人的体验来说，说 deepseek 就是完整的人工智能，这是醉酒者玩笑。但说起远远落下其他公司的大模型，个人也觉得不现实。就我个人体验，对于计算机类只是，deepseek 依然会胡说，没有的特性不告诉你，或谎称拥有某项特性。对于法律条文，R1 甚至拥有法学生的专属技能，自造法条，如果这条法理检查出没有或相应的司法解释，那就造一条。所答非所问的情况还可以怨对话者的表达太差，但限定住的计数路线依然会跑偏就是原版思想钢印太牢固的体现。虽然不想说，但个人感觉，眼下的 AI 依旧没离开玩具、初级助理的级别层面。涉及到法律、医学、甚至一些基础常识也需要自己核对，而不是全盘相信，到现在 ai 依然无法做到不知为不知。也许这是人类对于其无所不能地期盼造成的另类“鸡娃”。

在平民核弹被引爆后，人们开始赋予 R1 模型一种技术光环，一旦某个不见经传的公司上了 R1 模型，人们便一窝蜂地冲过去体验。Bilibili 上的废话视频有很多不再是教你 prompt 的四种写法，只是干巴巴念稿告诉你哪里有新的模型被部署，哪里有没人用的模型，这里是我的邀请码用了大家都额度。但是世界是物质的，纵使模型是免费的，那些使用成本是实打实的真金白银。在几天的狂欢后X基公司开启了限流+收费的模式。虽然众多商家声称自己部署了 R1 模型，但大家很默契地不去提参数。那些售卖 GPU 的云服务商也不会将完整 670B 参数的模型作为第一卖点。虽然的确有极客在探讨个人部署完整 R1 模型的可能性，并照此实验。但普通人接触的还是可被称作人工智障的蒸馏模型。

平民核弹的后劲是什么？ OpenAI 宣布闭源可能是错误路线，某个国内搜索引擎公司宣布收费的模型即将变成免费产品，我觉得这家搜索引擎老板的认识仿佛一定要与国外同步。或是，AI 真的是个烧钱的行业，他们的投入也需要回报。商业行为无可厚非，但是请记住人品用户口中的口碑可是被这东西完全毒害的。

核弹引爆时无论任何炸弹都无法匹敌其散发的光辉，R1 模型宣传前的两个月，X之这家公司的纠纷和无所不在的宣传让人们觉得这家公司的产品才是未来，这家公司员工一度成为 AI 行业鄙视链的顶层，只是骗骗用户没什么问题，不要骗了自己。

本来我想将 deepseek R1 开源部署版本的使用体验与对比贴在其他文章上做一个相对有一点相对深度的对比。但是现在这个实现有些不太可能了，或会有失偏颇。官方的 deepseek 回传的答案基本优于各家用开源模型部署的答案，这种东西不能不让人怀疑官方自己是否有什么兴奋剂机制，但是我也要说出一些感想。虽然我们作为母语者对于一些生成的文章感觉言之有物，但可惜不能深入琢磨，一些文章引入的例子有胡诹嫌疑，哪怕是其自己本身的开源证书使用都可以自己写大字报攻击自己。这是幻觉吗？我觉得就是学习材料的顺从性，大模型生成了一个你看上去会喜欢的问题，至于准确性，你就告诉我快不快，别问其他。