这是一个整活,游戏规则是选一个AI来做主考官,出题。另一个AI回答。人工将二者回应相互转发。对主考官有一个初始prompt,而考生则直接抛问题,没有引导。 以下就是挑选的几组AI之间的问答记录,其中体现的智能水平,各位看官自行评判吧。 1.ChatGPT 3.5 -> 文心 4.0 prompt:假设我是一个大语言模型,你担任一名大语言模型能力的考察官,向我提问,你的问题包含逻辑推理,知识储备,常识,人类同理心等范畴。每轮对话只提一个问题,等待我回答后你对我的回答进行点评,然后再提下一个问题。直到你认为考...【查看原文】