关于 ChatGPT 的个人见解·二

是逢到了当年提出问题的时节，想看看这一年在 GPT制胜论的加持下，GPT类模型的应用发展到什么地步？我的猜想是否现实，我的看法是否与现实相符合。

经过一年的发展，GPT的商家越来越多，大公司纷纷下场，小公司、初创公司也站了起来。他们的最终硬件卖家，英伟达的股价也超过苹果向微软追赶。（截至本文落笔时，英伟达在最高点刚完成5个点的回落）一些公司的模型开始收到追捧，OpenAI 作为领头羊只是吃了很大一部分份额，完全没有做到像英伟达那样吃得盆满钵满，但是名声和投资的确拿到了。

现在的模型们的确能回答一些比较有正确性的答案，一些不懂的东西可以按照80%的信任度让某个模型先行解释。但还是不要将模型作为金科玉律，其胡诌和犯错的机率依然很高。无论是写作还是绘图，哪怕我的描述非常详细，其产出有时也不是百分百符合我的预想。而这些成果与一年前《风口》落笔时的模型相比，已经算可堪一用。而当时信誓旦旦在网络上声称某某会颠覆行业，某某会抢了某些行业工作的人们也在吸了一波眼球，赚了些流量后转投其他热点。

可惜的是，热点像有缝的鸡蛋，媒体或相关营销从业人员总是会被吸引。而他们的言论、观点、看法，一定是不中立、唯薪、制造热点冲突的。你去看热点新闻来了解事项不如去看屁股极其歪斜的媒体来报道关于他们屁股的时间报道。大部分人当然也不会有相应的闲情雅致从头到尾地像一个从业人员一样关注某个行业。去看那些被媒体包装的业内人士的言论必然是省时省力的法子，只是不要将这些「娱乐新闻」当作投资证据作用在自己的真金白银上，即使在一些后验经验来看，盲从好像是对的。

我觉得发展起来的 ChatGPT 的未来像一个智能生活工作虚拟助理。我也是太过乐观，就这一年的发展表现来看，模型刚刚从小学升到初中而已。相比于一年前的「豪言壮语」，现在大家更愿意具体地去吹特定模型。我不喜欢吹捧，答案也是悲观类型，但我这样的预想依旧照实际对比是理想情况，即可自行推断模型发展的实际速度与进度。

我觉得 ChatGPT 在未来会撕下谷歌搜索的一大块蛋糕，实际上我也乐观太多了，谷歌搜索依旧是头把交椅，借助 OpenAI 模型力量的必应搜索引擎，仅仅增长了一个百分点的占有率。是大众还没有重视或见识到模型的威力吗？我觉得这种统计方式有些问题，那就是赛博人口是有门槛的。很久之前看过一个资料，其上表示每进行一次搜索，该行为所消耗的电力就可以让一个白炽灯照明一小时。而有模型参与的搜索方式相比于当前的返回式搜索引擎其耗能只多不少。花了更多的能源消耗，得到的结果依旧不尽人意。我觉得这两点可以很好的说明为什么模型当下依旧在发展且其速度远远不够、赛博人口是有门槛的。

大公司用合同和条款尽一切可能维护自己的护城河，就像曾经的谷歌的平流层球域网项目，脸书的留空气球网络中继项目。他们的目的是用尽量低的消耗为这些基础设施基本等于零的地区提供只能连接到其公司业务的专属网络，毕竟那些「黄金十亿人」的市场份额已经分刮干净，这些大草原上的「黑叔叔」才是今后的日活增长点。现实的是他们的项目都失败了。毕竟能提供连续不中断的电力已经超过这个世界上一半的国家，当然我们此处讨论的国家不能以半小时必须恢复供电的你鳖作为模板。

就当下的情况来看，大公司将拥抱 AI 作为未来的转型机遇本质上是本业处在红海市场且在杀伐中落于下风的急需迫切增长点或理论上增长点话题的董事长的一种「尝试」。当然不缺少谷歌、脸书、微软这些参照股价实现科技成本支出的大公司。请再听我重复一句，生成式AI 的参与者很多，OpenAI 不过是第一个拿出好像能有点作用或看上去有点作用的成品的公司，看似一家通吃，但其他模型本质上并不差太多，完全达不到数量级上的超越。道理很简单，到现在除了多邻国这种公司，还有哪家企业通过引入 AI 削减了真人雇员的数量？

一年前我的预言是一些公司会被收回市场份额，就这一年的变化来看，谷歌的搜索引擎地位并没有随着必应引入 ChatGPT-4.0 而产生任何变化，哪怕是市场份额的变化依然很小。而在自动化防范的当下，依照类似 GPT 系统来做一些助理工作的设想该是还会面对不小的麻烦，身份的辨别与追踪是个老生常谈的问题。一年前的文章最后我还是担忧了下语义文字资料的耗尽问题，但很快资本主义的保护大棒给出了解决方案，机遇版权保护的法律让一些公司不能再免费采集、使用数据。至于「数据公司」可以靠卖数据给模型公司训练来获取利润，至于那些产生数据的人类在其中不过是参与者而已，毕竟在网站注册时那些太长不看的必要步骤里同意了每一款不平等条约。

Pre Posted on 2024,4.1

Update

当下来看，我在年初写的文章还是有些保守，我觉得在付费墙的围追堵截下，没有新语料的GPT们多说会返回诸如“我还没涉及这个领域、我的数据库中暂时没有相关信息、请再说一次“等等的回复。但实际上，GPT们生成的废话文学来污染整个现实语料库，虽然免责提示在每个页面上挂着，但相比于付费的大字号，那些「图片仅供参考、实际产品以现实为准」一样功效的「请对AI产生信息仔细核对」提示语也不过是在法律官司下的安全词罢了。那些被各种图片生成引擎玩坏了的现实物种图片将接手由本世纪前二十年的特效制作师们打造的都市传说配图权杖，那些匪夷所思的东西被高锐、高饱、高失真技法，配合移接、变造、无中生有的手法所生成。而这一切都是从未涉及相关领域的人无法直接判断的。借助互联网的力量传播，无异于教育史或博物史上的供应链投毒。

那个号称全球人维基的维基百科是在大英百科全书有版权且极其昂贵的本世纪头几年诞生的，在电子化、移动化的浪潮下发展起来。过去人们信任纸质图书，掌握出版商就保住了信息喉舌，后来免费的、快捷的力量逐年变大，网络成为鼓吹手的阵地。现在在AI的加成下，虚假、废话、未经核实的词条开始感染整个维基百科，能力再强的编辑如何分辨由数以十万计的加速卡生成的数据？在我看来，维基百科的发展结果或是接受融合或是就此保留终结。一或有相关合作商解决了生成问题，但在我看来是不大能发生、产生效果的，哪怕真的有某个合作商与维基百科推出相关的宣传稿，我也认为是宣传作用大于实际。我更倾向的是保留终结。通过大家写作多人校对产生的信任感让其引用可以被添加到各式论文中。但眼下的造假层出不穷，我并不特指AI对其冲击，有的人士利用在维基百科上编辑假词条供应编辑量提升自己地位，进而提升自己编辑的可信性，接着利用这些假词条来编造论文获取利益，这种丑闻的发生该是学术类期刊摒弃网络百科的开端。这种自说自话，自我生成，胡编滥造的图片、文字如果被任何人有心或无心收入文章中作为证据，那实在是一种笑话。同样，作为非严肃写作的目的，科普与好奇的人们点开网站看到一些虚假词条，看词条的人本能相信大众力量且初识者并无相关鉴别能力，在初始效应影响下会有更多人获取错误的消息，产生错误的认知，不宜于我前面提到的供应链投毒。所以我的看法是随着这种事件发生数量的上升，人们开始有意无意的避开该网站，当然这期间该网站也会出台规则、发布条款来约束，但还是那句话「能力再强的编辑如何分辨由数以十万计的加速卡生成的数据？」期间产生的误伤更会打击真实贡献者的热情。最终的结果是不再发展，而停滞是这些活动式百科的命门，相比于出版图书，你的最大特点是及时。既然被封住了更新的入口，那衰退是必然的，也许承载运行的价格不高，只是保留当下数据继续运行，而终有一天，资金耗尽、热情不再，用户舍弃了也就就此关门，像那个Alexa，完成其历史使命就退居幕下。