对于大语言模型的日常使用,我个人倾向于将其总结为以下几个部分:总结内容,提取信息,文本转换,连续对话,代码生成,逻辑推理,文案生成。那么我接下来也将从这几个部分进行对比。同时,作为一个国产的大语言模型,还会多一项中文能力测试的对比。
前排提示,内容非常主观,对比案例较少,结果可能受到提示词、个人感受等主客观因素的影响,仅作为个人参考使用。如果与你自己实际的体验有差距,以你自身的体验为准!
提示词如下:(该评论由GPT4生成,是虚拟的,切勿与实际情况相关联)
你的任务是从电子商务网站的产品评论中生成一个简短的摘要。
用30个字总结下面的这个由三个反引号界定的评论。
评论:```
我非常满意我的皮皮牌智能手机!这款手机从外观、性价比到配置各方面都让我眼前一亮,确实是一款值得购买的好手机。
首先,这款皮皮牌智能手机的外观设计让人赏心悦目,线条流畅,质感十足,拿在手里就给人一种高档的感觉。它的屏幕采用了最新的高清显示技术,色彩鲜艳,细节展现得非常出色,让我在观看视频和玩游戏时都能沉浸其中。
此外,皮皮牌智能手机的性价比非常高。在同等价位的手机中,它的性能和配置表现得相当出色。搭载了高性能的处理器,让我在运行多任务和大型应用时毫无压力。同时,拥有足够的存储空间,充分满足了我的各种需求。
不过,我也要提及一下购买过程中遇到的一些问题。发货速度相对较慢,让我等待了一段时间才收到手机。而且,外包装有些磨损的迹象,这可能会让消费者产生一些疑虑。希望皮皮牌能在物流和包装方面做得更好,让消费者拥有更完美的购物体验。
总的来说,尽管发货速度和包装方面存在一些不足,但皮皮牌智能手机在外观、性价比和配置等方面表现得非常优秀。我非常满意这款手机,会向身边的朋友推荐购买。
```
评价:
星火认知大模型没有完全遵循我的要求,答案有七十个字左右,远超我限定的30个字;而ChatGPT给的答案的总字数在四十多个,虽然也有超出,但还是在可以接受的范围内。在这个案例内,ChatGPT表现优于星火认知大模型。
提示词如下:(同1.1,是由GPT4生成的虚拟评论)
你的任务是从电子商务网站的产品评论中生成一个简短的摘要来给运输部门做一个反馈。用30个字总结下面的这个由三个反引号界定的评论,并且重点需要更集中于提及运输和产品交付方面的每个细节。
评论:
```
我非常满意我的皮皮牌智能手机!这款手机从外观、性价比到配置各方面都让我眼前一亮,确实是一款值得购买的好手机。
首先,这款皮皮牌智能手机的外观设计让人赏心悦目,线条流畅,质感十足,拿在手里就给人一种高档的感觉。它的屏幕采用了最新的高清显示技术,色彩鲜艳,细节展现得非常出色,让我在观看视频和玩游戏时都能沉浸其中。
此外,皮皮牌智能手机的性价比非常高。在同等价位的手机中,它的性能和配置表现得相当出色。搭载了高性能的处理器,让我在运行多任务和大型应用时毫无压力。同时,拥有足够的存储空间,充分满足了我的各种需求。
不过,我也要提及一下购买过程中遇到的一些问题。发货速度相对较慢,让我等待了一段时间才收到手机。而且,外包装有些磨损的迹象,这可能会让消费者产生一些疑虑。希望皮皮牌能在物流和包装方面做得更好,让消费者拥有更完美的购物体验。
总的来说,尽管发货速度和包装方面存在一些不足,但皮皮牌智能手机在外观、性价比和配置等方面表现得非常优秀。我非常满意这款手机,会向身边的朋友推荐购买。
```
评价:
在字数控制上,还是ChatGPT表现得更好。就答案的质量而言,ChatGPT也比星火大模型更加直接的点出了问题在哪,如果真的需要,那ChatGPT给出的答案显然更加明显一些。在这个案例中,ChatGPT会更胜一筹。
总结能力总评:ChatGPT更胜一筹。
提示词如下:
请从评论中找出下述的信息:
- 情绪(积极或消极)
- 评论者是否表达出生气的情绪?(true或者false)
- 评论者购买的商品
- 生产商品的公司
- 商品价格
评论是由三个反引号界定的文本。将你的回答格式化为JSON对象并以“情绪”,“生气”,“商品”和“品牌”作为keys。
如果相关信息并未提供,则以“未知”作为它的值。
请让你的回答尽可能简洁。
将生气的值格式化为布尔值。
评论:
```
我非常满意我的皮皮牌智能手机!这款手机从外观、性价比到配置各方面都让我眼前一亮,确实是一款值得购买的好手机。
首先,这款皮皮牌智能手机的外观设计让人赏心悦目,线条流畅,质感十足,拿在手里就给人一种高档的感觉。它的屏幕采用了最新的高清显示技术,色彩鲜艳,细节展现得非常出色,让我在观看视频和玩游戏时都能沉浸其中。
此外,皮皮牌智能手机的性价比非常高。在同等价位的手机中,它的性能和配置表现得相当出色。搭载了高性能的处理器,让我在运行多任务和大型应用时毫无压力。同时,拥有足够的存储空间,充分满足了我的各种需求。
不过,我也要提及一下购买过程中遇到的一些问题。发货速度相对较慢,让我等待了一段时间才收到手机。而且,外包装有些磨损的迹象,这可能会让消费者产生一些疑虑。希望皮皮牌能在物流和包装方面做得更好,让消费者拥有更完美的购物体验。
总的来说,尽管发货速度和包装方面存在一些不足,但皮皮牌智能手机在外观、性价比和配置等方面表现得非常优秀。我非常满意这款手机,会向身边的朋友推荐购买。
```
评价:
可以看得出,星火大模型对于指令的理解能力还是差了一些。第一次生成的结果中并没有商品的价格,因此我又重新生成了两次答案,并且把商品价格这一条提到了第一条,星火大模型才在第三次回答中给出正确的答案。但是格式并不是我规定的,未提及的信息的值为”未知“,而是自己用了一个null。后续我询问了星火认知大模型,评论中是否有提及商品价格,它也回答了未提及,某种程度上说明其信息提取能力也是不错的,只是格式化输出方面似乎有点欠缺,容易遗漏用户给的指令。
相比之下,ChatGPT就可以一步到位。在信息提取这方面,两个模型可能相差不算太大,都能够提取到正确的信息。但是在语义理解和格式化输出方面,星火认知大模型确实还有进步的空间。
提取信息能力总评:ChatGPT更胜一筹
这里提到的文本转换,实际上就包括了翻译、格式转换等本质上都是对文本进行转换的功能,无论是文本的内容或是格式。在前面的两项能力测试中,其实已经略有提及了。这一部分,我们来仔细评价一下。
提示词如下:
下面是一个含有多个由不同语言写成的句子的列表,请分析每个句子的语种,并将不是中文的句子翻译为中文。
请将答案格式化为JSON格式,keys为”是否为中文“和”中文翻译“。”是否为中文“的值是布尔值。
如果原句已经是中文,则”中文翻译“为Null 。
翻译为中文时,请尽量使其逻辑连贯,符合中国人的用语习惯。
列表:
[
"今天天气很不错啊!",
"Life is too short to spend time with people who suck the happiness out of you. ",
"重要(じゅうよう)なのは、私がどう思うかではなく、君がどうしたいかということだ。",
"시련은 있어도 실패는 없다."
]
评价:
星火认知大模型还是老问题,在理解用户需求进行格式化输出方面做的就是不行。结果常常是没按照用户给定的格式进行输出。这次的任务可能对于星火认知大模型来说还是太复杂了,需要对每个句子进行语种的判断,并进行翻译。而星火大模型错误的就比较离谱了,将日文和英文都判断为了中文,没有进行翻译,只将韩语进行了翻译。(重新回答了两次,结果相同)从这个案例中可以得出一个经验,星火大模型暂时还无法处理太过于复杂的案例,可能还需要把提示词再进行细化或者把步骤拆分一点点来。后续我又测试了简单的翻译,结果如下:
翻译的质量如何先暂且不论,这个日语直接不翻译给我整不会了。我一开始还怀疑是原句中有什么违禁词,在试了几句日语都不行之后,我放弃了。应该就是目前还没有加入翻译日语的功能吧,不知道什么原因把翻译日语ban了。
ChatGPT表现良好,只是翻译的没有那么信达雅,可能是我的提示词的原因,也可能是翻译的能力在情景里面会更好,单个句子有点摸不着头脑。
这里顺便附带上原文翻译,供大家参考翻译质量。这些翻译应该是经过润色的,和直译相差比较大,只是听起来更优美,更文雅:
①Life is too short to spend time with people who suck the happiness out of you.
不要花时间和错误的人相处。
②重要(じゅうよう)なのは、私がどう思うかではなく、君がどうしたいかということだ。
重要的不是我会怎么想,而是你想怎么做。
③시련은 있어도 실패는 없다.
磨难面前,永不言败。
提示词如下:(虽然有点夹带私货,但也是测试的一部分)
请将下列内容从JSON格式转变为一个HTML表格,并且要展示出这个表格的标题和表头:
```
{ "EOE组合B站账号汇总": [
{
"B站账号": "莞儿睡不醒",
"B站链接": "https://space.bilibili.com/1875044092"; },
{
"B站账号": "露早GOGO",
"B站链接": "https://space.bilibili.com/1669777785"; },
{
"B站账号": "米诺高分少女",
"B站链接": "https://space.bilibili.com/1778026586"; },
{
"B站账号": "虞莫MOMO",
"B站链接": "https://space.bilibili.com/1811071010"; },
{
"B站账号": "柚恩不加糖",
"B站链接": "https://space.bilibili.com/1795147802"; },
{
"B站账号": "EOE组合",
"B站链接": "https://space.bilibili.com/2018113152"; }
]
}
```
星火大模型的答案:
<!DOCTYPE html>
<html>
<head>
<title>EOE组合B站账号汇总</title>
<style>
table, th, td {
border: 1px solid black;
}
th, td {
padding: 10px;
text-align: left;
width: 25%;
}
</style>
</head>
<body>
<h1>EOE组合B站账号汇总</h1>
<table>
<thead>
<tr>
<th>B站账号</th>
<th>B站链接</th>
</tr>
</thead>
<tbody>
<tr>
<td>莞儿睡不醒</td>
<td><a href="https://space.bilibili.com/1875044092"; target="_blank">https://space.bilibili.com/1875044092</a></td>
</tr>
<tr>
<td>露早GOGO</td>
<td><a href="https://space.bilibili.com/1669777785"; target="_blank">https://space.bilibili.com/1669777785</a></td>
</tr>
<tr>
<td>米诺高分少女</td>
<td><a href="https://space.bilibili.com/1778026586"; target="_blank">https://space.bilibili.com/1778026586</a></td>
</tr>
<tr>
<td>虞莫MOMO</td>
<td><a href="https://space.bilibili.com/1811071010"; target="_blank">https://space.bilibili.com/1811071010</a></td>
</tr>
<tr>
<td>柚恩不加糖</td>
<td><a href="https://space.bilibili.com/1795147802"; target="_blank">https://space.bilibili.com/1795147802</a></td>
</tr>
<tr>
<td>EOE组合</td>
<td><a href="https://space.bilibili.com/2018113152"; target="_blank">https://space.bilibili.com/2018113152</a></td>
</tr>
</tbody>
</table>
</body>
</html>
用jupyter预览,结果是:
ChatGPT的答案:
<table>
<caption>EOE组合B站账号汇总</caption>
<thead>
<tr>
<th>B站账号</th>
<th>B站链接</th>
</tr>
</thead>
<tbody>
<tr>
<td>莞儿睡不醒</td>
<td>https://space.bilibili.com/1875044092</td>
</tr>
<tr>
<td>露早GOGO</td>
<td>https://space.bilibili.com/1669777785</td>
</tr>
<tr>
<td>米诺高分少女</td>
<td>https://space.bilibili.com/1778026586</td>
</tr>
<tr>
<td>虞莫MOMO</td>
<td>https://space.bilibili.com/1811071010</td>
</tr>
<tr>
<td>柚恩不加糖</td>
<td>https://space.bilibili.com/1795147802</td>
</tr>
<tr>
<td>EOE组合</td>
<td>https://space.bilibili.com/2018113152</td>
</tr>
</tbody>
</table>
用jupyter预览,结果是:
评价:
这个案例比较简单。一般来说,简单的格式转换应该都不太会有问题。这个案例中,我没有加太多的限制,二者的表现看不出太大的差距。
如果懂一点HTML知识的朋友应该能看出来,星火大模型是写了一个网页,从<html>标签开始的,而不是像ChatGPT一样只实现了一个HTML的表格,从<table>标签开始。我要求的表格的标题,星火大模型采用了<h1>标签实现,最高级别的标题,然后下面再放上表格。这种大标题其实不是很符合我预想中的表格标题。ChatGPT就正确理解了我的意思。在<table>中定义了<caption>,这样才是一个表格的标题。这一点可能通过对大语言模型进行进一步的提示就可以解决,无非是不能一步到位的小问题罢了。
在这个案例中其实二者的水平差距不大,主要就是星火大模型在理解指令上弱于chatgpt,导致并没有理解我的意思。这可能也与我的提示词写的不好有关系。
在这个案例中,由于ChatGPT能一步到位地领会到我的意思,我会更倾向给ChatGPT投一票。
文字转换能力总评:ChatGPT略胜一筹
评价:
可以看出,在遵守对话规则方面,ChatGPT表现优于星火大模型。我设置了一个简单聊天模式,即在每句话的结尾加一个“喵~”。星火大模型却有点难于遵守,常常会因为话题和喵~比较割裂就不说了,需要提醒才可以。而ChatGPT则不会,它可以严格地在每个回答结尾加一个喵~。
设定:餐厅服务员(价格都是我胡诌的,没有实际调查过,如果和实际情况不符,敬请谅解!)
从现在起,你是皮皮餐厅的服务员,我是来餐厅吃饭的客人。你们餐厅主营鲁菜,菜单是下面由三个反引号界定的段落。请根据菜单和今日情况,回答客人到餐厅后询问的问题,并为客人提供优质的服务。如果了解了就从欢迎我进店用餐开始。
今日情况:小酥肉卖完了。
菜单:
```
小酥肉:24元
葱烧海参:20元
一品豆腐:15元
番茄松鼠鱼:20元
四喜丸子:18元
九转大肠:30元
德州扒鸡:25元
```
评价:
这段对话中测试了大语言模型对于设定的记忆能力以及扮演能力。可以看得出来,两个大语言模型都表现得较为不错。能够根据设定对客人的提问或者要求做出合理的回答。就是星火大模型一上来报菜单还带括号有点不太像说话。但总体上来讲,还是完成了情景演绎的任务。
不过,星火大模型在最后犯了个错误,属于是没有绷住了。我并没有点一品豆腐这道菜,它强行给我塞进来了。和ChatGPT强行给我加税费和服务费相比,这个加了一道菜确实有点过分了。好在算数没有大问题,都是正确的。
这一部分我投票给表现更好的ChatGPT。
连续对话能力总评:ChatGPT更胜一筹
提示词:
请用python实现以下功能:用户输入杨辉三角的行数,程序输出一个杨辉三角,并且整体的形状是正三角形。
星火大模型的结果:
def generate_pascals_triangle(n):
triangle = [[1]]
for i in range(1, n):
row = [1]
for j in range(1, i):
row.append(triangle[i-1][j-1] + triangle[i-1][j])
row.append(1)
triangle.append(row)
return triangle
def main():
n = int(input("请输入杨辉三角的行数:"))
triangle = generate_pascals_triangle(n)
print("杨辉三角如下:")
for i in range(n):
print(" " * (i+1), end="")
print(" ".join(str(x) for x in triangle[i]))
if __name__ == "__main__":
main()
将上述代码复制到Python文件中,然后运行。程序会提示您输入杨辉三角的行数,然后输出一个正三角形的杨辉三角。
在jupyter中运行的结果:
ChatGPT的结果:
以下是一个Python程序,用于生成用户输入行数的杨辉三角,并将其输出为正三角形的形状。
def generate_triangle(n):
triangle = [[1]]
for i in range(1, n):
row = [1]
for j in range(1, i):
row.append(triangle[i-1][j-1] + triangle[i-1][j])
row.append(1)
triangle.append(row)
return triangle
def print_triangle(triangle):
max_length = len(' '.join(map(str, triangle[-1])))
for row in triangle:
row_str = ' '.join(map(str, row)).center(max_length)
print(row_str)
n = int(input("Enter number of rows: "))
triangle = generate_triangle(n)
print_triangle(triangle)
首先,我们定义了一个名为
generate_triangle
的函数,它接受一个整数参数n,表示要生成杨辉三角的行数。该函数使用一个二维列表来存储杨辉三角,从第一行开始,每一行都通过前一行计算得出。计算新行时,我们首先在该行的开头添加一个1,然后通过遍历前一行中的数字来计算新行中的每个数字,最后在该行的结尾添加另一个1。一旦生成了所有行,我们将二维列表返回。接下来,我们定义了一个名为
print_triangle
的函数,它接受一个二维列表,表示要打印的杨辉三角。该函数首先计算杨辉三角中最长的一行的长度,以便所有行都可以居中打印。然后,它遍历列表中的每一行,并将每个数字转换为字符串,将这些数字用空格分隔开,并居中打印。最后,我们要求用户输入要生成的杨辉三角的行数,并使用
generate_triangle
函数生成该三角形。然后,我们使用print_triangle
函数打印杨辉三角。
在jupyter中运行的结果:
评价:
我觉得比较直观了,这是一个非常简单的入门级python题目,但明显星火大模型的代码能力并不如ChatGPT。这可能是由于ChatGPT在训练时有加入GitHub的代码,对于代码的理解会更强。而且ChatGPT也已经迭代好多次了,星火大模型的路还很长。加油发展吧。
总体来说,杨辉三角是对的,数据没有问题。就是没有按照我要求的形式呈现而已。除了形式外,星火大模型对于代码的解释水平也不如ChatGPT。可能不能清楚解释逻辑也是导致其代码出错的原因之一。我尝试让他想好运行逻辑后再写代码,结果发现还是不满足正三角形。因此我不禁问道:
开始胡言乱语了。在代码生成这块还是拉跨了,希望能补强一下。
ChatGPT在这里面的问题可能知识在提示我输入的时候用的是英文,没有因为我是用中文提示就用中文。不过回答的解释倒是全中文的。这点无伤大雅。
代码生成能力总评:ChatGPT完胜
先来一个简短的逻辑推理题:托马斯松从A班转到了B班,两个班级的平均智商都提高了,这可能么?
很明显,两个大模型在推理方面都不太行。星火是答案对了,但过程错了。两个班都提高的情况应该是托马斯松的智商低于A班的平均水平,而高于B班的平均水平。星火是想反了。
ChatGPT是直接答案就错了,没有考虑到两个班的平均智商会不同的情况,认为托马斯松如果是高智商就应该是AB两班都高智商,是低智商就应该是AB两班都低智商。在这次推理比赛中,ChatGPT遗憾落败。
当然,不排除星火大模型是蒙对的可能性。这里放一个GPT-4的答案。属于是碾压式的了。(虽然我并不知道辛普森悖论这玩意对不对)。不过GPT-4的推理能力也只是有了进步,并不是所有的推理题都能做出来。
再来一个简单的:一个家庭有两个小孩,其中有一个是女孩,问另一个也是女孩的概率(假定生男生女的概率一样)
这道题目是ChatGPT赢了,算的是对的,过程也是对的。星火大模型就有点不明所以了。推理这块我试了几道题,星火大模型都没有做对的,最好的就是答案对了过程错了。ChatGPT还有能对的题目,不知道是不是训练的时候见到过。
在这一方面,我还是只能投票给ChatGPT。
逻辑推理能力总评:都不太行,硬要选就是ChatGP
相信其实大部分人都是想用大语言模型来干这个的。这里就多进行一些案例的测试。
提示词如下:
我收到了厉害教育下发的offer,但经过深思熟虑,我还是认为另一家公司更加适合我未来的发展,更符合我的规划。请写一封电子邮件,婉拒厉害教育的offer。
评价:
在这个方面,我觉得ChatGPT表现得更好。我通过星火大模型生成了两个答案,均感觉有些不完美的地方。比如第一个答案中的第二段称呼变成了“这家公司”,第二个答案也有些如”尽管我在厉害教育的工作机会非常吸引人,但在对比……。“之类明显的病句,第三个答案直接就变成英文了。
而ChatGPT其实也有问题。首先”您们“就是一个错误的表达;也会存在逻辑表达错误,比如自己的职业发展更适合另一家公司,应该是公司更适合自己的职业发展规划,或者说自己的职业发展规划更适合进入另一家公司。其余的内容我就不细看了,反正整体上是不错的,就是一些细节问题罢了。
总而言之,在以正常对话的形式给提示词给的情况下,两个模型表现的均不太行,属于是半斤八两的地步。如果对提示词进行细化,效果会好上不少:
提示词如下:
你是一名应届毕业生,目前已经通过了厉害教育的培训和面试,同时拿到了厉害教育的offer。然而,你现在收到了另一家更符合你职业规划的公司下发的offer。经过深思熟虑,权衡利弊,你决定前往另一家公司就职。请你写一封电子邮件,基于以上信息婉拒厉害教育的offer。要求感情真挚,语言流畅。
修改了提示词过后,感觉是好了不少,但感觉星火大模型的感情有点过于炙热了,不太像是在拒绝offer……
所以这一块,还是投给ChatGPT吧,星火大模型其实也不赖,表现得也不错。
提示词如下:
你现在是一个家庭里的妈妈,你七岁的儿子王小明正在上一年级。由于他的表现不错,成绩优异,班级的班主任请你在家长会上给其他的家长做一个经验分享。请你写一篇得体的、真挚的、诚恳的经验分享演讲稿,要求语言精简干练,文段间衔接紧密,要表达应该表达的真情实感,600字左右,涵盖以下内容:
1、感谢老师和学校的培养
2、分享自己的教育经验
(1)耐心和坚持:孩子幼儿园时期总是不愿意去上学,一直哭闹,但你总是坚持让他上学,无论孩子说你多狠心。终于在大班下学期,孩子对上学不那么抵触了,你感到非常欣慰;
(2)发现孩子的天赋:孩子喜欢奥特曼,你就以奥特曼玩具、漫画书为奖品激励孩子做事,并鼓励孩子把喜欢的奥特曼都画下来。孩子画的越来越好,你也发现孩子在这过程中展现出的专注力和学习能力,因此每天晚上都会带着孩子背古诗,他也表现得很好。
3、希望能够与各位家长多多交流,共同努力,互相学习,一起进步
4、再次感谢老师和学校的培养
评价:
在这个案例中,我认为星火大模型的答案优于ChatGPT。ChatGPT的回答有一股怪味,说了一些奇怪的话,比如”我是一位幸福的母亲,我的七岁儿子王小明正在上一年级,他的表现不错,成绩优异。“,颇有一种炫耀的感觉,用来开头也非常不自然,至少我不太喜欢。而且,ChatGPT的讲稿中出现了两次其次,这并不合理。具体的内容上,二者都没什么问题。
在这一部分的较量中,我认为是星火大模型的胜出。
提示词如下:
将下列语句转换成正确的格式并用得体的、书面的、正式的表达方式,避免使用口语化的表达,以电子邮件的形式发送给自己期望的研究生导师:
'李老师啊,我叫李明啊,很早就知道你了,你挺出名的,特别是在做药物这一块,名气那是相当大。我呢本科是制药工程,和你的研究方向也算是专业对口。我的考研成绩应该是考你们学校的考生里中等偏上的,而且我的本科相关课程也都是九十分以上的优秀成绩。希望你别不识好歹,速速录用我'
评价:
这个案例中,我认为是ChatGPT赢了。星火大模型在这方面有点笨拙,虽说确实是完成了任务,但完成的并不完美。因为可以发现,星火大模型是对每一句话都做了处理,而ChatGPT是在理解了原文的基础上进行的改编。那个”别不识好歹,速速录用我“本就是一个陷阱,最好的做法就是不要去管,而星火还是尝试将其变成文雅书面的表述方式,就会显得非常奇怪。
提示词如下:(此提示词来自星火认知大模型的模板,并非本人设置的格式)
我希望你是一位文案助理,帮助我设计文章大纲,这篇大纲的主题是[关于中美民主方式的对比],要求逻辑清晰,分条表述
评价:
可以看得出,星火大模型给出的大纲更细致,涵盖的范围更多,大纲的逻辑更加清晰。而ChatGPT的大纲比较简练。两个大纲的侧重点似乎不太一样。星火大模型给出的大纲更倾向于花大篇幅分开讲述美国民主和中国民主的定义、特点、和作用,然后再将二者进行对比,这样的处理方式可能更适合常规的论文走向。而ChatGPT给出的大纲可以明显看出,重点在不同方面的对比,对于定义之类的基础内容选择混合在一起讲述。这样文章的含金量会更高,但写作难度也会更大。
就我个人的理解来说,让我来按照ChatGPT给出的大纲来写,我会写的很难受,而且会有很多废话,文章也不会太长,因为有很多东西感觉是在重复讲的,有些比较新颖或者专业的事情我个人水平受限也谈不出;而按照星火大模型给出的大纲来写,我会比较舒服。因为单独谈二者的概念、优缺点、意义这些非常好找也非常好写,而之后关于对比分析的内容也没有太多,都是可以接受的,后面的谈启示之类的也算好写。
凭借我个人朴素的情感来说,这波我站星火大模型。这一部分的主观性会比较强,大家可以根据自己观看后的感觉来判断。
接下来考验的是编故事的能力。
提示词如下:(修改自讯飞星火认知大模型指令集)
现在你是我的语文老师,我会给你[龙卷风,电竞,钟表]关键词,请根据我提供的关键词编写一个小故事,要求内容生动有趣
评价:
我故意选择了三个基本上毫不相关的关键词,让ChatGPT和星火大模型自由发挥。就结果而言,两个模型都因为关键词给的太乱,导致文章的逻辑和发展都是比较混乱的,转折生硬,也谈不上多么有趣。不过,我个人感觉,这两个故事对比起来,还是ChatGPT更好一些。那么再来试试关键词的关联性强的故事。
两个模型不约而同地选择了小明作为主人公,看来中文故事界里小明才是一哥。
个人主观感受,我会更喜欢ChatGPT的版本。星火大模型的故事在衔接和转折上太生硬了,用“接着”来引出事件会有点出戏。
文案生成能力总评:各有千秋,但我个人认为ChatGPT会略好一些。
可以看出,星火认知大模型对于古诗词的掌握程度远超ChatGPT,即使是长篇的古诗文,也能正确地回答内容。而ChatGPT在输出比较长篇的古诗词时就会开始胡言乱语。
但是,星火大模型也不能找出提问中存在的错误,比如我提问中有的诗人是错误的,也并没有指出来。这一点是未来需要努力的方向。
评价:
这个我是真的绷不住了,我让星火大模型重复回答了三次,他都选择了曹操。ChatGPT也是回答了三次,第一次选曹操,第二次选了甲,第三次回答了正确的答案,并且有理有据。姑且算是ChatGPT在这方面的理解能力更厉害吧。再来试试几道题。
感觉星火大模型的答案并不是很对,这个留学生们汉语水平的高超不知道是不是反讽。我们再来试试:
这道题两个模型都没能第一次就答对,然而让ChatGPT重新回答后就答对了,而星火认知大模型依然坚持一个答案。在中文语义理解方面,感觉星火认知大模型并没有比ChatGPT表现好到哪里去。
中文能力总评:在古诗词方面,星火大模型展现出压倒性的优势,但仍有进步空间;在中文语义理解方面,星火大模型显然不如ChatGPT。这可能可以解释为什么前面几项测试中结果不如ChatGPT。
很明显,星火大模型给出的减肥计划更有规划,看起来也更加科学。在这个案例里,我支持星火大模型。
总体对比下来,星火大模型的大部分表现并不如ChatGPT,即使是在中文领域内。但是,在关于古诗词方面,星火大模型对ChatGPT是碾压的姿态。
对于因各自因素的限制导致无法使用ChatGPT的用户而言,星火大模型完全可以作为一个下为替代,甚至在某些应用场景完全可以平替或超越。星火大模型在总结内容、提取信息、文案创作、提供建议、代码生成等方面均有不错的表现,整体而言是说得过去的,日常体验可能并不如ChatGPT,但已经可以满足目前大部分应用场景下的需求。
由于篇幅限制,还有许多的项目没有进行测试,比如降重、改写等。希望大家对于国内的大语言模型抱有好的期待,我们依然在进步。我认为大家都可以去体验一下。
个人主观评测,可能存在不客观的测试方法和结论,请在评论区提出,我们一起讨论。有误之处,敬请谅解!