3月10日,在中国人工智能学会、浙江省数字经济联合会等机构联合主办的“ChatGPT技术的创新与突破”专项论坛上,远传科技CEO嵇望先生分享了远传科技在推动ChatGPT在知识领域应用的思考和实践。
2022年杭州市数字经济高质量发展大会指出,杭州将以高水平重塑全国数字经济第一城,并坚持把发展新一代人工智能作为建设全国“数字经济第一城”和“数字治理第一城”的重要领域。
而今年以来,人工智能领域的ChatGPT火爆全球。两会期间,ChatGPT更是成功“火到两会”,成为代表们热议话题。
ChatGPT火爆的背后,反映了AI技术持续进步、应用场景不断拓展的趋势。同时,ChatGPT的成功,也预示着人工智能产业界的新机遇。
对近期ChatGPT的爆火,杭州人工智能领域的政府领导、学术专家、企业代表共济一堂,探索ChatGPT技术的创新与突破,为杭州AI产业发展寻找新机遇出谋划策,为杭州重塑全国数字经济第一城献计献策。
远传科技CEO嵇望先生表示,ChatGPT在泛知识管理有望得到广泛应用。
知识应用领域主要分为知识管理和知识应用两大类,知识管理主要有知识管理平台和知识共享平台,而知识图谱、智能知识库与问答对话系统则是知识应用重要组成部分。
对知识的可用性取决于数据的可靠性和准确性、语义一致性、可查询性与可解释性。基于ChatGPT在包括文本生成、回答问题、翻译文本、逻辑及思维链能力等多方面不俗的表现,其在数据采集、数据标注、数据生成、问答对抽取、三元抽取五方面赋能知识工程。
·在数据采集方面,ChatGPT可以从各种在线资源中抓取文本数据,并将其整理成结构化数据。并且对从不同来源获取的数据进行清洗,从而提高数据的质量和可用性。
·在数据采集完成后,ChatGPT可以使用自动标注算法来标注数据,然后通过人工审核来修正错误。ChatGPT还可以使用传统的机器学习算法和深度学习算法来标注数据。
数据获取后,ChatGPT进行数据结构化处理,主要包括问答式抽取和三元组抽取两种途径。
·对于问答对抽取这种方式,ChatGPT可以使用自然语言处理技术来从文本数据中提取问答对。ChatGPT可以使用命名实体识别和关系提取技术来识别问题和答案,并将其匹配成一对。
·而三元组抽取,CHATgpt可以使用命名实体识别技术来识别文本中的实体与关系,根据已有的三元组和实体关系来构建知识图谱。
远传科技不断扩展人工智能的使用范围,积极加速ChatGPT相关领域布局,在知识工程应用探索了三大应用场景:
·基于PDF文件问答对生成
用户上传 PDF 文件后,可以对它提问任何关于这份PDF的问题,只要上传完成,便如同完全理解了这份PDF文档一样,立刻就可以提取出PDF文档中的核心要点,并提示用户可以根据提示要点来提问。
·知识图谱三元组抽取
以构建基本知识图谱的三元组抽取为核心,抽取包括主体、客体、主体与客体之间关系,在一段标准知识输入后,可以自动输出由实体、属性和值组成的三元组答案,能在很大程度上解决当前ChatGPT的事实谬误问题,提高答案的可解释性。
·数据标注
在数据标注方面,则可以在输入需标注语料后,根据已设定的规则,将需标注语料打上标签、自主识别、自动分解并输出经过标注后数据信息。通过这种标记、注释分类的过程,更好地识别和理解信息,提升问答的准确性。
小结
作为数字经济第一城, 杭州有着人工智能的场景优势。面临新机遇,抢抓新赛道。远传科技借鉴ChatGPT等大规模语言模型与技术,结合自身的智能交互技术优势,将AI前沿技术与城市、与产业紧密结合,基于AI技术的数字化研究、场景化应用,为杭州乃至全国数字化进程贡献自己的力量。