近年来,假新闻和网络谣言成为了一个严重的社会问题,不仅影响了公众的认知和判断,也威胁了社会的稳定和安全。为了应对这一挑战,许多研究者和开发者尝试利用人工智能(AI)技术来辅助事实核查和信息验证。
美国威斯康星州立大学的研究者Kevin Matthe Caramancion最近进行了一项研究,评估了目前最知名的四个LLM,即Open AI的Chat GPT-3.0和Chat GPT-4.0、谷歌的Bard/LaMDA和微软的Bing AI,在检测新闻真假方面的表现。
他的研究结果发表在预印本服务器arXiv上,为未来利用这些先进的模型来对抗网络谣言提供了宝贵的参考。
Caramancion在接受Tech Xplore采访时表示:“我最近的论文灵感来源于理解各种LLM在对抗网络谣言方面的能力和局限性的需求。我的目标是严格地测试这些模型在区分事实与虚构方面的熟练程度,使用一个受控的模拟实验和已建立的事实核查机构作为基准。”
他说:“我们使用了一个由100个经过独立事实核查机构核实过的新闻项目组成的测试套件,来评估这些大语言模型的性能。我们在受控条件下向这些模型呈现每一个新闻项目,然后将它们的回应分为三类:真、假、部分真/假。我们根据这些模型与独立机构提供的核实事实相比较的准确度来衡量它们的有效性。”
Caramancion发现,在100个测试项目中,四个LLM中只有Bing AI能够正确地识别出所有真实新闻,并且没有将任何假新闻误判为真实新闻。而其他三个LLM则表现出不同程度的错误率,其中Chat GPT-4.0是最差的一个,只能正确识别出67%的真实新闻,并且将23%的假新闻误判为真实新闻。
Caramancion认为,这些结果表明,目前的LLM还不能完全取代人类在事实核查方面的作用,而且需要更多的改进和优化。他建议,在使用这些模型时,应该结合其他来源和方法来验证信息,并且要注意它们可能存在的偏见和局限性。
他说:“我希望我的研究能够引起人们对LLM在识别假新闻方面潜力和挑战的关注,以及对它们在社会中的影响和责任的思考。我也希望我的研究能够激发更多的研究者和开发者来探索和改进这些模型,使它们能够更好地服务于人类的福祉。”
#人工智能 #大语言模型 #假新闻 #事实核查 #ChatGPT