主持人:各位投资者朋友大家晚上好,感谢大家利用晚上的时间来参们举办的ChatGPT新龙头-三六零电话会议。ChatGPT持续发酵,市场无论是国内外,还是ChatGPT供给侧到应用场景,不断演绎,引起了全社会的热潮。大家会关注谁是中国最有可能推出ChatGPT的公司,百度今天正式在官网发布了后续的产品计划。今天特别荣幸邀请到了360。为什么我们觉得互联网巨头以360、百度等为代表的公司会比较有潜力,核心在于ChatGPT本身代表AI三个技术门槛,算力、数据和算法模型。其实算法模型反而是这里面门槛最低的,如果大家研究的深都知道,这是2017年谷歌(英)论文,在产业界开源使用。更大的门槛是来自于算力和数据资源,毫无疑问,互联网巨头在这两方面拥有独特的优势和门槛。再加上360本身在国内搜索引擎比较高的市占率,又有非常好的场景,落地场景入口,成为整个市场非常关注的焦点,公司经历了长期的厚积薄发,今天我们特别荣幸邀请公司董秘赵总和IR陈总共同出席电话会。计算机首席以及通信首席马天诣一起主持,比较重要的机会,下面将时间交给赵总,跟大家分享一下360这方面的布局和未来的战略规划。
赵总:谢谢大家。可能算法工程师不会同意刚才主持人的说法,他们认为算法是最重要的。我大概介绍一下360现在的形势。正如刚才主持人所说的,现在的AI技术是特别热的热点。为什么会这样?OpenAI实验室成立的时间已经非常久了,以前叫做GPT,ChatGPT现在已经推出到3.0的版本。最近火也是因为大家看到ChatGPT3.0终于开始说一些人话,大家突然看到了,美国人已经把通用范式的AI从0到1的这一步跑出来了。在这个前提下,具备通用范式的AI技术对于整个软件领域,尤其是对于我们的搜索引擎是一个具有非常颠覆性的影响,甚至于国外有的专家,包括微软(英)他们都认为,这个可能会对搜索引擎有一次重新洗牌式的冲击、打击。我不知道大家用不用知乎这种所谓的知识类软件,现在很多搜索引擎流量被知乎、B站知识聚集类的应用所分走了,因为搜索引擎现在罗列出来的只是一些非常简单粗暴的链接,更何况以百度为代表的,当然我们可能也有,会有一些性价排名。在最显眼的地方,或者在头一页上,大家能够看到的链接反而是含金量不高的链接。尤其是现在网络上的知识鱼龙混杂,良莠不齐,可能你点开的排名高的链接给出的答案是不正确的,或者是有偏颇的。以ChatGPT为代表的人工智能清洗之后,它会通过自己的自然语言算法,根据它在网上,我们反哺给他的信息,生成一篇,说通俗的话,可以生成一篇类似于作者精心准备的知乎一样的文章,会有非常详尽的、具体的解释,答案里面每一句以论文参考文献的形式,在旁边会有引注,这个知识点来自于哪一条链接。这个会对整个搜索引擎底层逻辑造成重大的影响。所以其实大家看到现在首先发力或者主要发力于ChatGPT产品的是谷歌、百度,这种大型的搜索引擎巨头。
这个技术对于360而言,其实我们从2019、2020年开始,大家就看到了可能会有的技术变革。360在当时就已经成立了人工智能研究院,也投入了相当的人力、算力,去跟人工AI场景。但是在美国人,说真的,我还是比较佩服美国人的。当美国人怕通用范式跑出来之前,其实大家对于能用通用AI来做专业的事情,大家心里是没有根的。大家更多做垂直领域或者更专业的AI,用更专业的数据模型去训练人工智能,去做一些专业领域的事情。比如说我们,大家可能也看到我们用安全AI查找软件漏洞,去扫描漏洞。当然我在今天互动中也回答了,效果是非常好的,包括也做到了全球第一的查找水平,也受到了网信办的点名表扬。再举个例子,科大讯飞有他的AI去跑医疗、教育,这些都是效果不错的。在美国人把通用范式从0到1做出来以后,其实对于整个AI市场是非常大的冲洗。大家会看到通用AI范式能够做到专业领域的事情,就不会再有很多人去做专业的数据模型,大家都会把力量投入到通用数据模型中来,用通用的数据模型去达到自己专业的事情,这是现在整个市场面临的现状。
刚才主持人也说了咱们的AI有三大块,预训练大模型、投喂数据以及所拥有的算力这三大方面。咱们先说训练大模型,那时候还不叫ChatGPT,那会儿叫GPT2.0的时候,它还是开源软件。现在GPT3.0已经不是开源软件了。在开源的情况下,其实大家对于算法都有一些自己的理解。包括研究界也有很多的论文,大家各有各的技术。显然现在GPT3.0更领先,马上要出到3.5。至于我们和百度谁强谁弱,我也不好评判,只能说大家各自都有自己的优点。在整个算法下面还有一个细节,就是(英)小技巧,数据清洗和人工标注,这是每一家自己独到的地方,同样一个卤货,周黑鸭吃起来就跟别人不一样,这就是自己的技巧。这个技巧在百度推出他的产品之前,我也不知道他是什么样的,我们还是有自己的独到之处。第二点是我们喂给训练模型的数据,天然注定为什么搜索疫情是水到渠成的事情,别的网络公司或者别的科技公司做AI就没有这么顺。因为搜索引擎天然拥有大量的数据来源,包括之前我们在做专有模型时,为什么ToB端的数字安全做的非常好,基于安全卫士累计下来的大量安全数据模型。没有大量的数据模型去投喂,经过一轮一轮的迭代,反馈出来的结果会越来越精准。就像AlphaGo一直在吃,当他吃到1万张、10万张、100万张,显然是不一样的。从连小孩都下不过,到能战胜李世石。这个反而是最重要的一方面,投喂数据的多少,投喂数据迭代次数的多少,这是真正决定AI强弱最关键的因素之一。第三是算力,算力说白了就是钱,就是你能买得起多少台A100,能组建多少个算力集群,大概能用多长时间跑数据,能进行多少人的迭代,这就是资金支持。我们比谷歌、百度的资金储备不足,A股市场不光只有我们一家做搜索的上市公司,可能200多亿的资金,我看也比别人要多很多。科大讯飞目前还是在做专业的AI训练,他们的这种动作看来,所需要的算力,倒退我们自己的钱,觉得还是绰绰有余的。我大概讲以上三点,因为AI技术是非常复杂,并且非常大的概念,我觉得咱们还是有的放矢比较好,在我讲的框架之下是否有具体问题供咱们讨论。
主持人:好的,谢谢赵总,解释的非常清楚。大家好,我是民生通信的马天诣。接着刚才吕所提的问题,包括刚才赵总提的情况,基于三方面先抛砖引玉请教三个小问题,AI层、场景侧和安全侧。第一个问题,刚才您提到,我们不评价和百度比怎么样。就像您说的,A股通用AI公司,和专业算法的AI公司比,咱们大概的投入量级,或者我们和他的优势能稍微展开说一些吗?第二个问题场景侧,现在我们大家看到基于交互的场景,您认为还有哪些场景是我们以前,像您互动一直提到的,我们测试过,但现在市场还没关注到的场景?第三个问题安全侧,基于AI,因为市场还没有关注到可能这里面有很多的安全隐患,您能展开讲讲安全问题的场景,给大家做解读吗?谢谢赵总。
赵总:好的,谢谢主持人。第一个问题,我觉得优势还是比较明显的,由于某些不能说的原因,互联网分两块,简中互联网和其他互联网,这是没有办法的事情。不得不说在某些质量上,英文互联网是高于简中互联网的。具体到现在谈的狭义AI技术,特别是ChatGPT,首先是基于自然语言的,第二是基于使用者需要的内容进行呈现的。在这两个基础之上,其实对于简体中文互联网的数据需求,会比其他互联网的数据需求来得大一些。或者我们叫做刻化训练,刻划训练需要调的更好一些。国内市场A股上市的搜索引擎,我能看到的只有我们一家。百度是在香港上市的,搜狗已经被腾讯收购了。A股上市的搜索引擎公司只有我们一个。简体中文互联网或者国内市场而言,我们的搜索引擎在PC端日搜索是8亿多次,移动端的搜索次数是1.5亿次。也像我说的一样,我们市场份额占比大概是35%。百度是比不了的,因为剩下基本都是人家的。但我们也拥有了绝对的数据量,在A股市场看不到除了我们之外的第二名在哪里。这是我们在数据上的优势。
第二个问题,在资金上的优势。一台八连80GB的A100大概80万人民币左右,跑一个月平均下来大概是4万多的成本。做一个集群,秒秒中可能1、2个亿就出去了。当然,科大讯飞这种头部不说,人家也是做AI出身的。不点名,现在市场上的某些公司和算力三连代码,其实我也看不太懂。
第三个问题,算法,包括刚才说的数据清洗(英)。算法确实,GPT2.0是开源的,开源也要吃透,也需要人去研究。尤其具体到数据清洗方面,数据清洗说白了没有什么太难的,就是人工标记。需要大量的人员对于第一次吐出来的数据进行人工标记,哪些是好的,哪些是不好的,然后才能进行第二轮的迭代。这个东西说白了就是烧工资,看年报也很简单,就看员工研发费用就好了。之前也有人提出一年这么多,30多亿的研发费用,50多亿的研发费用,花在哪里,不能说都花在这里,有相当部分花在这里。其实我觉得从数据侧或者基本面,其实大概就能看出来一个公司真正意义上的AI,财务报表支不支持购买大量的算力集群,支不支持有大量的人员做表前。第二是有没有相应的支出去存大量的数据,我记得之前也说过一年花在存储上的支出大概7亿人民币左右。他说他有数据,得有地儿放。数据和人员支出在财报上都看不见,他说他有数据、算法、算力,我觉得应该是没有的。这不是我们说从2020年开始有,而是相应的财报支出以及寓言都能够支持这一点。包括我们在下午互动上说预计推出demo产品,这个demo产品一直都有,这个产品主要是当做内部工具来用。内部工具有很多是需要用到AI的,比如说批量生成图片,比如说对我们自己的,刚才您的第三个问题,就是安全类的使用,包括用AI对于现有搜索引擎返回内容的修正,这其实都是我们的内生工具需要用到AI的地方。搜索引擎市场占比能跟到不掉队,说明我们展示出来的。基于现在搜索引擎展示页面,比百度而言,不说好与不好,反正不差,反正没有被百度落下。百度也在做他的AI系统,用他的AI能力去反哺他的搜索展示结果,显然相应的,我们也会有我们的东西来反馈我们的搜索结果。如果从搜索展示结果有差异的话,我们早就被市场抛下了。我也是厚颜的承认了,我们是A股市场仅存的AI公司。这是回答主持人的第一个问题,我们的优势在哪里。第二个问题是什么?
主持人:场景。
赵总:我要说的不对,陈总补充。可能我这个人比较悲观,我觉得现在没有一个真正能够实现盈亏平衡的场景存在,这是我对于AI,尤其对于现在ChatGPT3.0的看法。但是我并不是说现在没有,未来就没有。其实这个道理解释清楚也很简单,ChatGPT3.0为什么现在开始收费。从最开始免费给大家用,到基本上90%提问不会回馈,到现在需要20美元的注册费用去使用,就是因为它太贵了。它所回答的答案是按token收费的,一个英文单词基本就是1个token。我有一个非常复杂的问题,它反馈的结果是“This is a dog”,this、is、a、doa这就是4个token。它大概是每1000个token,0.7美分,这个价格比传统搜索结果差出3个数量级的价格差距。用现在ChatGPT3.0所展示出结果,到目前为止是盈亏不平衡的事情。ChatGPT3.0之前免费给大家提供API,供大家使用,他是希望落后一些的数据输入,等于让人民大众去帮助他训练模型。但是当训练量到了以后就需要收费来hold住他的成本。国内肯定更是这样。因为这个东西也是规模效应,我认为百度每1000个token肯定是要比OpenAI实验室要高的。我们可能也是这个样子。但是为什么我说这个事情很快就会有大规模的商业应用呢?因为在之前几年硬件一直是以摩尔定律来增长的,18个月3米3,尤其是GPU。AI算力是由CPU,大家如果玩游戏的话,一直说老黄的刀法精准,挤牙膏。其实咱们在GPU上面还是有很大潜力的。硬件的发展是一直没有停止的,但这是第一次以来我们真正应用软件跑到硬件发展的前面。一直以来其实软件发展是落后于硬件的。当前AI的每个token的价格很贵,当GPU算力增加之后,当GPU单芯片的性能增加以后,价格就会自然而然下来。比如现在显卡出到4050,我记得3090是一年前之前的事情,现在是4090。当出到5090的时候,可能现在不是N100的计算机器人,那时候可能就是N1000、N10000,那时候可能下到0.07美分,这是可以承受的代价。商业化场景我认为不出现在当下,而会根据硬件的发展出现在不久的未来。同时到那个时候我觉得ChatGPT马上出3.5,那时候出4.0或者4.5,这个时候它的回答再精准一些,加上我们的硬件水平再高一些,那个时候进行真正的商业化应用就不是什么问题了。陈总,您有补充吗?
陈总:没有。
主持人:安全问题。其他的AI公司,咱们想到,包括以前解决的,这里面有哪些相同不到的,可能会出现很多安全问题,我们看到最近大家对于他们发布的内容,意识形态,今天有个新闻说诱导一些发言,从您的角度可以展开一下。
赵总:抛开宏观而言,抛开人工智能而言,通过机器、人工智能回答,并且通过人工智能编辑的图片、视频、语音、文件必须在显著位置标注这是人工智能回答的。这是所谓的伦理道德风险,这个先不谈。我们就谈真的网络数字安全,其实AIGC技术有很多方面,我们说只用ChatGPT能干到的事情就很多。基于自然语言环境,最能想到的就是钓鱼软件、诈骗软件应用,群发钓鱼软件、群发网络诈骗信息,这种其实是咱们能想到的最简单的基于ChatGPT产生的网络风险。而且现在已经有很多程序员用ChatGPT帮助自己写程序,之前大家都是去抄,抄一个比较简单或者比较规范的子程序,大家去重新命名,改一改参数,用到自己大的逻辑代码里面去。但是现在的ChatGPT技术可以根据已经写完的代码,它会自动读取你设的变量,去读取你已经设定的逻辑。当引用新的子函数的时候,不但起到拷贝粘贴的作用,根据之前的编程逻辑自动调整,同时还可以进行很多的,比如我说把这个东西从C++转到PHP,它也非常容易的能够转化过来。这个东西既然能用在好的方面,就能用在坏的方面。我们已经看见它可以生成恶意软件、漏洞恶意攻击软件,而且是批量的生成漏洞恶意攻击软件。这不是想的,这是我们能看到第二点。我们能看到的第三点是更大一点的,当AI技术发展到更高的时候,会不会用AI来一些攻击机,来控制一些攻击的工具集群,对你的整个网络构架进行有步骤的攻击。举个简单的例子,就好像现在的量化基金一样,根据交易价格变化自动生成,按照策略进行一定的买卖,将来就会根据你AI系统的实时变化,利用它手里的工具对你进行快到纳秒级、毫秒级的网络攻击,这时候网络防守方显然也需要AI的配合对其进行阻断。在我们现在已经进行的数字安全AI识别上,我们在上面也说了,在这里不重复,发现全球最多的漏洞,基于我们训练的AI模型,刻画模型,专门针对于数字安全训练的大模型,喂给它从安全卫士形成的安全类大数据,最后形成的安全AI,帮助我们发现的恶意攻击、高级威胁和大型软件漏洞。这也是经过实战认证的,所以我们才觉得现在的AI技术不能场景化或者不能商业化,回到第二点,可能在技术上只有临门一脚,现在最关键的是价格问题。不知道这么解释,您是否满意。
主持人:好的,您解释的非常清楚。(文字提问)应该是一个老股东问的,去年业绩相对低一些,今年的业绩构成和展望是怎样的?
赵总:有点早。陈总,现在安全占比是27%吗,如果没记错的话。
陈总:没有那么高,2022年20%。
赵总:18、19%。
陈总:对。
赵总:我们希望进一步提升安全占整体营业收入的占比,如果可以的话希望能提升到30%,这样就意味着增速也得在30%左右。我们一直说互联网及互联网增值业务有序下降,没跟大家解释清楚。来自于搜索引擎的收入以及利润没有下降,一直下降的是有关于互联网广告的收入和利润,和之前不管是社会困难,加上国家的指引,都是相关的。互联网广告其实大家通过境外大型互联网公司也能看出同比的趋势。根据今年的新情况,的确来自于广告收入的确不好展望,跟宏观经济息息相关。搜索引擎我们从来没有掉队,不管是市场份额,还是日均点击,还是互联网搜索引擎变现能力,我们还是一直保持在,和百度份额比一直没有产生变化。第三点是来自IOT收入,IOT收入一直比较稳定,同时我们一直没有放弃IOT分拆上市,的确硬件比现在主攻的主营业务方向联系的没有那么紧密,我们希望能够有自己的独立上市地位,我们是它的母公司,希望能独立出去发展。大概情况是这样。
主持人:(文字提问)您说的体验版本下半年要推出,大概是什么时间?在这个领域战略级别多高,会投入E级别的,老周会投入多大精力?
赵总:战略级别有多高,这个最好回答。微软和谷歌都认为是颠覆级的应用,我们非常同意他们的判断。我们在内部开会时也举过一个例子,刚才我说在短时间之内没法商业化,这也是大家的共同判断。像核武器一样,不会用,但不能没有。就算谷歌和微软有了氢弹,你也要有一颗原子弹。如果你没有,你就是第三世界国家。如果你有,你就是无偿国家。ChatGPT就是这么严峻的形势,这就是我们对ChatGPT的考虑,我是指搜索业务,对于别的业务到没有这么严峻。
主持人:新产品推出,因为你提到要推出测试版。
赵总:测试版推出不是特别大的事情。我刚才也说了,类ChatGPT产品,这是我们自己去研发的。360GPT作为内部生产供给在给内部专业人员,完成他们的工作使用。简单推出,把映射从私域网放到公域网就算推出。产品是有的,但是这个东西不客气说的是不看百度,首先看跳不跳票,第二看能达到什么样的指标。有时候先发不一定是优势,可能需要判断,根据文心一言。因为百度做的文心一格我们是看到了,这个不评价,反正不及我的预期。我想看他的文心一言到底是什么样水平的产品,这个时候我们再考虑自己的产品是怎么个策略。我只能说到这里。
主持人:好的。他其实是说是否会利用这个机会在搜索引擎领域实现对百度的弯道超车。
赵总:我们不说大话,首先拥有是为了不丢掉阵地,这是我们的最低段位,我也是比较诚实,开诚布公的跟大家讲,没有肯定要丢掉阵地,拥有首先不丢掉阵地。第二,正如西方大佬说的一样,这是一次重新洗牌,我认为都到重新洗牌了,得罪同行的话不好说,只能说大家各尽其能。机会总是提供给有准备的人的。我可能也就这么说,因为我毕竟没看到百度的产品具体是什么,不能说一定有信心去弯道超车,但我相信我们的技术水平,保持前二还是没有问题的。
主持人:好的,您说的非常清楚。麻烦会议助理播报提问方式,接入线上提问。
提问:赵总好,刚才您的分享也解答了我之前关于技术的疑惑。预训练模型本身在美国笔源,现在中美技术差异对比微软、谷歌,公司在在这块差距有多大?如何提升?
赵总:您这个问题涉及到百度、阿里、腾讯,我不能替人家说我们的差距有多大。只能大概跟您说一下,包括百度,甚至于包括科大讯飞在内。大家最开始为什么做专有的AI模型,就是因为大家在通用AI范式这一块,举个例子,在做通用AI范式的时候可以想象站在一个沼泽地上,四面没有光,也没有手电,这时候咱都不说走多远,往哪边走都是个问题。这种情况下大家都选择了相对光明的道路,就是专用AI范式。不得不佩服美国人,他把这个事情从0到1的道路硬生生的走出来了,我们是很佩服的,实话实说。当他走出来之后,瞬间我们觉得,包括所有人都会觉得专用的AI范式,不能说毫无疑义,应用领域进一步缩小,大家都会投入到通用范式当中去。中国最不缺的就是摸着石头过河,一直在不断证明这个实践,不能说抄袭,我们在效仿并且超越这方面很有心得。如果您这个问题问此时此刻中美技术差异有多大,我只能说我们和美国的差距很大,但我认为别人和美国的差距不小。下午互动也说了,可能吹点牛的说,我们的技术水平相当于GPT2.3左右,基于我们在互联网的优势,如果大家都用中文提问,或者都用中文提问有中国特色的问题,可能实际体验要到2.5版本左右,但现在人家ChatGPT马上要推出3.5,基本就是一代多的差距。我相信别人比我们强,也不会比我们强出代差。你要问截至到此时此刻,我认为中美是有代差的。尤其是不开源后,代差可能会持续一段时间,但是真正当我们吃透了逻辑,并且我们吃透了数据清洗,这个差距就会被中国的聪明才智以及便宜的人力迅速拉近。举个最简单的例子,其实现在ChatGPT这些数据都不能证明真伪,因为这些东西都是业内的数字,他们现在可能的参数只是我们参数的1/10,包括百度,可能他们千亿参数,我们万亿参数,他们1千亿参数,我们5千亿参数。人家用1/10的参数就可以输出比我们好一代的结果,这就是数据清洗的左右。我们现在占着中国人力便宜,他们有1个人,我们有10个人。一旦当我们吃透之后,差距就会随着人力迅速降低。
提问:明白,非常清楚。关于大模型底层技术研发,有哪些公司是有机会的,或者是有潜在机会的,您能总结一下吗?
赵总:这个我不能点名,我只能说大模型数据研发,预训练大模型不是一蹴而就的事情。不是今天我们拿GPT2.0超一超,明天就有了,不是这样的。吃透它,哪怕它是开源软件,吃透它可能都需要一年多的时间。再根据现有的论文去优化它,再去设置参数,然后再喂给它数据。如果算力不够,跑一轮3个月就过去了,发现驴唇不对马嘴,再跑一轮半年就没有了。谁具有这个能力,我还是这么说,最晚在2021年就已经涉及到AI技术,如果在2020-2021年这个期间没提过AI,从2021年现做,我不认为他具备与训练大模型。
提问:明白,非常清楚,我先问这两个问题,谢谢赵总。
主持人:麻烦会议助理看看大家是否还有其他问题。
提问:领导好,请教两个问题。目前模型发展到3.5代,3.5代和之前代际相比做了哪些优化,之前代际演变过程中会在哪些方面会提升?
赵总:因为3代不开源了,我看不到,所以我不知道3代和2代有什么提升,这个我们是知识盲区,但一定是有重大升级的。
提问:从现在开始看向以后技术迭代过程中,是否会把现在没解决,或者做的不是很完美的地方再优化一下,是否有这方面的展望?
赵总:后面一句没听清,请您再说一遍。
提问:从您的角度看,记忆现在版本再向后续版本升级迭代过程中,您觉得哪些方面还有优化空间?
赵总:这个问题问的很好。现在ChatGPT有一个最大的问题,就是它会把一些错误答案,大家用一下就知道,我们这边有一些相关问题的合集。它会非常理直气壮的给你输出明显错误的东西,这其实就是ChatGPT的弱点。其实ChatGPT是有一些竞争对手的,其他人他就会直接说这个问题我不是很清晰,这个问题我不是很明白。现在国外很多中小学,包括大学,其实是封掉ChatGPT的,他认为这个东西会影响知识准确性。这个其实是现在ChatGPT的重大缺陷,实话实说,这个缺陷会随着迭代轮数的增加,喂给它数据的越来越详细,包括人工数据标注的更新,这个毛病一定会逐渐克服掉。
提问:明白。感谢领导的解答,这边有一个小问题想再请教一下。目前做的比较好的有咱们和科大讯飞,您能否简单说一下对科大讯飞的看法?
赵总:我不太方便评价别人。我是比较尊重科大讯飞的。说个最简单的例子,我不去评判别人具体怎么样。大家最通俗易懂的点,ChatGPT是基于自然语言,我觉得这个就可以解释一些问题,它是基于自然语言的,基本就没胜谁了。第二点,科大讯飞人家从很早开始就做AI训练模型,他做的很专业,据我了解在医疗领域、教育领域有很好的市场地位,人家有人家的技巧、有人家的算法,有人家的数据,医疗有大量的处方单和病例来支撑他做专业的AI。这个东西不敢说叫一层窗户纸,大差不差,从专用移到通用还是可以的。我们比他强的是,既然做通用范式就要有通用数据,而不是专用数据,通用数据只有搜索引擎有。
提问:明白。
赵总:又有数字安全的专业数据,又有通用数据,科大讯飞只有他擅长的专业数据,百度有通用数据,百度数据没有我们大。
提问:明白,感谢领导的解答,非常详细,我这边没有更多问题。
主持人:麻烦会议助理看看大家还有没有其他问题。
提问:博照基金,商言君。我请教一个问题,在ChatGPT没有出现之前,科大讯飞在专有领域,人工智能做到了相当的水平,我的问题是专有领域跟现在通用领域,主要壁垒和差距是什么,是在模型和专有数据上。ChatGPT完善后,除了数据外,是否可以很轻易的进入科大讯飞所在的领域,比如教育、医疗,对他形成比较大的威胁。
赵总:我没有办法评价别人,您这个问题没有办法替别人来回答。当一个东西什么都能干,什么都能精的时候。通用范式可以这么理解,喂你什么就吐出什么。不说科大讯飞,当这个算法,当然这个例子不恰当,您试图理解。比如说喂给ChatGPT8.0,喂给100万张之后可能比AlphaGo强。这个例子不恰当,但这个涉及到别家上市公司,我实在没有办法说。
陈总:赵总,我补充一下。各位投资者,在这个点上我们可以这样去理解。如果说专用领域,一个是数据量的门槛,数据获取可能是相对封闭的,我们现在作为普通的用户使用通用搜索,可以给模型很多的数据。但是专有,举个不是特别合适的例子,比如医疗方面,处方并不是随便能获得的,医院给不给你开放权限,不管是获取成本,还是进入行业门槛,这种东西我觉得不适合这样去做比较。我就补充这个。
赵总:我把陈总这个例子稍微具像一下。医疗领域我认为科大讯飞会维持他的优势,这是毋庸置疑的。举个不恰当的例子,医院是比较丰富的,比如说某个医院给我开放他的病例库,一下有50万个病例档案可以用。但是当ChatGPT来用的时候,我瞎说,可能会有100万人去上面问,我得了心脏病,医生给我开硝苯地平合适吗,这样会有100万个诊断结果。这个例子不用在医疗领域,您试图理解就好。当一个很狭窄的专业领域,并且一个很狭窄的垂直领域,且不专业的,且不是封闭的AI模型一定会被ChatGPT所取代。但是专业性的AI模型,我认为会保持它的优势。就好像刚才举的那个不恰当的例子,喂给ChatGPT100万张也取代不了AlphaGo。
提问:如果现在微软、谷歌推出GPT3.0版本,科大讯飞受到威胁做通用模型竞争优势是不足的,尽管他有专业领域的经验,可以这样理解吗?
赵总:我觉得您最好把问题集中在我们公司上,我没有办法回答科大讯飞的问题,我是非常尊重科大讯飞的,我也很尊重人家的专业领域知识。我觉得由我来回答是对人家的不尊重,为什么由我一个外行来回答人家的专业领域。
提问:好的,谢谢。就提这个问题,谢谢。
主持人:麻烦会议助理播报提问方式,看大家是否还有其他问题。
如果没有其他问题,今天非常感谢赵总和陈总利用晚上宝贵的时间跟大家一起交流。再接入最后一个问题,麻烦领导报一下机构名。
提问:领导好,我是博照基金高霄霄(音)。我想问一下公司AI团队大概多少人,包括专门用于AI方面的训练等,相关的算力集群多少服务器、多少卡?
赵总:这涉及商业秘密,其实我也想知道到底有多少人,有多少机器,其实我打听了很多,我没听到。很抱歉,我也不想告诉您。
提问:或者人数这边,方便说吗?或者整个研发里面,大概比例是多少。如果不方便的话,也没关系,算了。
赵总:对,您这是问到非常核心的问题。就像我刚才说的,你有多少人,你有多少机器,就代表你有多少算力,你有多少数据清洗、人工标注的能力。内行基本就能推断出你的产品水平。说白了,我要跟您说,不如我今天晚上直接把demo发出来,可能还能发在百度前面。
提问:好的,没有其他问题,谢谢。
赵总:不好意思。
提问:没有。理解。谢谢。
会议助理:(文字提问)下面是来自汇泉基金管理有限公司的提问,请问ChatGPT的算力、算法谁更重要?
赵总:这个怎么讲,算力和算法都重要。可能我的算法强就不需要那么多算力,算力强的时候可能十天迭代一次,人家三个月迭代一次,我可能算法稍微糙一点,凭借迭代次数多也可以抢到先机。没有绝对强弱的问题,它们两个肯定是×1的关系,乘出来的数谁大,双方都很重要,没有人不重要。同时这是三个乘数,喂进去的数据也很重要,就像你有一个非常大的算力集群,你有一个非常好的算法,比如说图片处理,喂给它1万张图片,要什么都出不来。这时候你喂给他1000万张图片,你的算力跟不上,半年一次还是出不来。算力跟上了,算法跟不上,虽然算力够,但算法出来还是一塌糊涂。所以说都非常重要,没有说谁重要谁不重要,只是说算法这个东西由于在2.0层面是开源的,有很多论文,大家可能觉得各家实力差不多。但是说真的我们看到ChatGPT3之后,我们认为从2到3的提升过程中算法有本质上的提升,咱们开诚布公的说。我不知道这个问题答成这样好不好,我想表达的观点已经表达清楚了。
提问:(文字提问)下一个问题是来自招商基金徐生的提问。英伟达芯片受限,对国内大模型算力的影响?
赵总:肯定会有影响,买不到卡,买不到机器,怎么进行计算呢。这个不展开说了,各公司都会有自己的解决方案。不然禁止芯片出口,自己国家的AI过不了吗,肯定不是这样。上有政策,下游对策,现在也没耽误我们做AI,也没有耽误百度去做AI。有影响,但有解决办法。
主持人:好的,麻烦会议助理看大家是否还有其他问题。
如果没有提问的话,今天非常感谢赵总和陈总今天晚上的时间,和大家交流的非常充分。最后汇报一下我们的观点,我们认为ChatGPT算法固然重要,但同时整个数据来源更加重要。所以大家认为ChatGPT会不会替代掉浏览器,我们认为不但不会,反而和浏览器互相合作,生成会更加紧密。我们建议大家从稀缺性、研发投入各方面看好360建议各位领导高度关注360接下来各方面的全新变化。谢谢大家,谢谢张总谢谢陈总。
赵总:刚刚说到的所有技术环节都是针对于今天晚上的情况做了化解的,不精确,希望大家谅解,不希望变成纯技术的讨论。
主持人:好的,您的解释非常清楚。谢谢赵总,谢谢陈总,谢谢大家,大家辛苦了。(作者:林子翔lal)