注:本文非广告,幻方也没有给我一分钱的广告费,写这篇文章的目的就是单纯地想表达我此时激动的心情
8月2日,某国内不知名(严谨地说,应该是圈外不知名)AI大模型—DeepSeekV2的提供商幻方表示,他们采用了一种创新性的硬盘缓存技术,可以大幅降低模型的使用成本,下面是DeepSeek官方对该技术的说明:该技术会把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中。如果输入存在重复,则重复的部分只需要从缓存读取,无需计算。这么看可能有些不好理解,让我们举个简单的例子,就拿我们大部分人刚开始接触AI都会玩的项目—AI角色扮演来说,当你沉浸在和AI小姐姐的闲聊中时,你们的聊天记录分分钟就能达到数万tokens。当你编辑好一条新的消息时,你得明白,你即将发送给模型的内容不仅仅是你刚刚编辑好的这条消息,还必须加上之前所有的聊天历史。所以说,从此刻开始,你发送的每条消息都将达到数万tokens,如果你的每条消息的字数都是大体相同的,那么这其中的花销就可以看作一个等差数列求和问题,我相信只要有点数学常识的朋友都能明白开销有多大。
DeepSeek的这项硬盘缓存技术就解决了这个痛点。采用这个技术后,服务器就会把之前的聊天历史当作未来会重复使用的内容缓存到硬盘阵列上,所以说,当你发送一条新的消息给模型时,虽然服务器依旧接收到了全部的聊天记录,但真正用于计算的内容只有你新编辑的这条消息,其余的聊天历史会直接从缓存中读取,这就解释了为什么采用了硬盘缓存技术的DeepSeek能够大幅降低使用成本。
根据DeepSeek官方的说法,即使不做任何优化,按历史使用情况,用户整体节省的费用也超过 50%。我实测了一下,节省的费用确实非常大,下图就是我8月3日使用DeepSeek coder的具体用量:
如上图所示,缓存命中的tokens数量大约是10万左右,根据DeepSeek官方的报价,这部分tokens的收费仅为0.1元/百万tokens。根据使用经验来看,当你和同一个AI角色进行多轮对话,或者针对同一份代码进行问答时,节省的花费还是很可观的。
我写这篇文章的目的就是想告诉大家,国内的大模型不只有某度的某心一言,没必要看到某度的模型做的不好,就去嘲讽国内的AI研究机构和研究人员,我们踏踏实实搞技术的研究者还是很多的,在计算芯片严重缺乏的当下,国内仍旧出现了一大批诸如DeepSeek、GLM、Yi、Qwen、星火等等优秀的大模型,其中DeepSeek和GLM的综合实力已经不比GPT4差多少了,相信在不久的将来,这种差距还会被进一步抹平。