当前位置:首页|资讯|ChatGPT|大语言模型

深圳高校版ChatGPT要来了!香港中文大学(深圳)凤凰大语言模型即将上线

作者:深圳梦发布时间:2023-08-13

原标题:深圳高校版ChatGPT要来了!香港中文大学(深圳)凤凰大语言模型即将上线

CUHK-SHENZHEN

走进未来·共享智慧

香港中文大学(深圳)

凤凰大语言模型

即将上线

“我的英文写得不好,可以帮我把这篇论文润色一下吗?”

“堆排序的时间复杂度是多少?”

“假如你是徐志摩,写一首关于“微积分”的浪漫现代诗。”

“我有点不开心,能陪我聊聊吗?”

“帮我讲一个关于微积分的笑话。”

“向我的商科同学,用大白话解释一下什么是香农定理。”

“翻译成中文:We hold these truths to be self-evident, that all men are created equal, that they are endowed by their Creator with certain unalienable rights, that they are among these are life, liberty and the pursuit of happiness. That to secure these rights, governments are instituted among them, deriving their just power from the consent of the governed.”

“我妈妈来深圳玩两天,有什么推荐的好玩的地方吗?”

这些需求,香港中文大学(深圳)自主研发的“凤凰”大语言模型都可以来帮你实现!

在这个信息爆炸的时代,人工智能的快速发展为我们的生活带来了前所未有的便利与可能。为了更好地满足香港中文大学(深圳)校内师生的学术与实践需求,香港中文大学(深圳)师生团队联合深圳市大数据研究院自主研发了一款名为“凤凰”的大语言模型。“凤凰”大语言模型结合了全球领先的人工智能技术与校园教学、研究需求,是一款经过校内数据科学团队精心研发的一项人工智能应用,旨在针对校内数据进行指令微调,为广大师生提供智能化、高效率的学习与研究支持。

“凤凰”的灵感来源

2023年5月,香港中文大学(深圳)的师生团队聚在一起开展课题小组讨论时,大家充满激情地构想着一个令人兴奋的场景:“我们可以开发一款专门用于校内的大语言模型,为校内师生提供个性化的智能学习和研究辅助,让学术探索更加高效和智能化!”

一切创新都源自生活,凤凰大语言模型的构想也是如此。数据科学学院的青年教师王本友教授对于学生的学习与科研需求一直心怀关切。在日常交流中,他经常听到团队里的学生讲述在处理海量学术数据和文献时遇到的困难。深知学生们在技术和理论上的压力,王本友教授决定以他的学术经验,带领这三位出色的学生共同探索一个解决方案,希望做出一款专属于校内师生的大语言模型,真正将人工智能与校园生活无缝地结合起来。王本友教授介绍,“我们要把大模型语言做到专业且简单易用,未来我们将会打造专属于团队的大语言模型生态。从解决问题出发,不一定要高大上,能解决问题的方法就是好方法。这是一个非常有前景的项目,如果我们能开发出一款智能化的大语言模型,能够根据学生的需求进行个性化辅助,定制化输出结果,将会给学校师生带来极大的助力!”

王本友教授在获得成熟的构思之后,立刻与博士生陈志鸿同学进行了可行性的沟通,并与计算机科学与技术专业的本科生研究助理刘禹恒同学取得联系,指导刘禹恒同学主导研究“凤凰”项目。随后,团队招募了三位研究助理加入团队,他们分别是来自大数据科学专业的本科生欧阳恺瑞同学、张一笛同学和来自大数据研究院的研究助理宋定杰。他们融合各自的专业知识和热情,通宵达旦地研究、探索和迭代。经过数月的不懈努力,“凤凰”大语言模型拟在8月中旬发布内测版。

“凤凰”大语言模型学生团队,从左至右依次为:

陈志鸿 2019级博士生 理工学院 思廷书院

刘禹恒 2020级本科生 数据科学学院 思廷书院 高中毕业于成都七中嘉祥外国语学校

欧阳恺瑞 2021级本科生 数据科学学院逸夫书院高中毕业于广东实验中学

张一笛 2021级本科生 数据科学学院逸夫书院高中毕业于哈尔滨第三中学

“凤凰”大语言模型的技术特点

大模型发展到现在,研究从模型和算法转到了以数据为中心(Data-centric), Data-centric是一个新概念,研发团队秉持以数据为中心的计算方式,完成了数据工程,指令微调反馈学习和检索增强等一系列关键步骤。

数据工程(Data engineering)

数据工程是模型微调的关键,优质的数据源会极大地影响模型训练后的表现。在这一过程中,研发团队从香港中文大学(深圳)收集了丰富多样的校内数据,包括校园建设、教授信息、学生反馈等,数据量高达3万条;团队在此基础上设计并构建大规模数据收集、存储和分析系统,同时利用ChatGPT在数据治理中发挥的重要作用,最终得到有组织、一致、高度可用的数据流。

指令微调(Instruction tuning)

为了让“凤凰”模型更好地适用于校园场景,团队采用了渐进式的两阶段模型训练策略。首先,在通用语料上对模型进行了全参数量的指令微调,从而获得了与人类回复相一致的“凤凰”基础模型。在第二阶段,团队运用丰富多样的校内数据对模型进行了进一步的训练,让其学习学校相关的知识,理解学生和家长的问题意图,并能够提供更贴近校园教学和研究的回复,从而提升了模型在校园场景中理解并回答特定问题的能力。这样的训练策略确保了“凤凰”模型在校园环境中表现出色,为用户提供了更加个性化和有价值的交互体验。

检索增强(Retrieval-augmented generation)

为了进一步提高模型回答的正确性,团队在生成模型的基础上添加了检索器,设计了检索增强算法并将自研的混合检索算法结合,在模型生成的基础回答上,将数据库检索出的相关语料注入到上下文语料,增强提示信息,生成更高准确性的回答。

目前,英特尔公司专门选取“凤凰”模型做CPU的适配,参考https://github.com/intel-analytics/BigDL,彰显了模型的全球影响力和工业界影响力。凤凰是第一个多语言开源的类ChatGPT的语言模型,根据第三方排行榜SuperCLUE琅琊榜(中文通用大模型匿名对战评价基准)https://www.superclueai.com/的排名情况,它排名第五,为高校独立开发的首位。

第三方中文大模型排行榜,凤凰大模型排名第五名

香港中文大学(深圳)研发团队除了开发了“凤凰”,还同时开发了专注于医疗健康领域的大模型“华佗GPT”。其中公开资料显示,2023年2月,研发团队发布的“华佗GPT”是首个国内类ChatGPT的医疗大模型,也是国内公开的首个通过多个医疗资格考试的大模型,目前线上已经有十几万用户体验了“华佗GPT”的功能。

医学资格考试的分数排名(https://cmedbenchmark.llmzoo.com/),除GPT4,华佗-II遥遥领先其他模型。

“凤凰”丰富的应用场景

以前,为了获取校内各领域的资讯,师生可能需要在数十个校内公众号间来回切换获取信息。如今,有了“凤凰”大模型,只需轻松提出问题,“凤凰”将为你深入研究,呈现准确的信息,为你的学术和生活提供便捷的指引。

“凤凰”不仅仅是一款应用,更是你的智慧校园导航。想知道学校有几个食堂?哪些菜品好吃实惠?想要了解某个学院的师资力量、讲座讯息?别担心,向“凤凰”提问,它会为你一一解答,让你快速了解校园的方方面面。

“凤凰”大语言模型在校园内有着广泛的应用场景,包括但不限于:

学术研究助力

无论你是学生还是教师,都离不开学术研究。对于论文写作,你可以请求“凤凰”进行润色,让文章更加流畅。需要帮助优化学习方法?它会为你提供宝贵的建议,助你在学术道路上前行。

科研项目支持

科研路上的困难会被“凤凰”轻松化解。无论是实验设计还是数据分析,它都能为科研团队提供关键支持,推动创新成果的产出,让科研更加高效。

校园信息查询

不必费心到处查找,只需询问“凤凰”,你就能获取关于校园设施、行政流程、教授研究领域等方面的信息。在这个快节奏的学习环境中,它为你节省时间,让你更专注于学术和生活。

“凤凰”在具有香港中文大学(深圳)校内知识的同时,在通用能力方面也达到了GPT的95%的水平,具有强大的智慧内核。通过此技术,团队希望模型的输出更加贴近校园现实,为校内师生提供真正有用的智能化建议与支持。在使用期间,“凤凰”研发团队深知数据安全与隐私保护的重要性。所有“凤凰”大语言模型的应用都遵循严格的数据隐私保护原则,确保师生的个人信息与学术数据。

“凤凰”研发团队介绍

香港中文大学(深圳)和深圳市大数据研究院大模型团队包括王本友、万翔、孙若愚、李海洲几位教授、蒋峰博士和高安凝哲博士,还有在读博士生近十名。深圳市大数据研究院以数学为基础,以数据为驱动,以重大应用为导向,聚焦大数据基础理论与核心算法、大数据通用软件与技术、大数据驱动的智能应用技术三大方向进行理论研究和技术攻关,打造世界级的大数据研究机构和协同研发平台,服务于国家大数据发展战略,推动整合深圳市、粤港澳大湾区大数据科研和产业。

迄今,香港中文大学(深圳)和深圳市大数据研究院大模型团队获得了IEEE TNNLS(CCF B)杰出论文奖, IEEE CIM杰出论文奖, NLPCC 2022(CCF B)最佳论文, NAACL 2019(CCF B)最佳可解释NLP论文和ACM SIGIR 2017(CCF A)最佳论文提名奖等多项奖项。最近,由深圳市人才工作局、深圳市大数据研究院和香港中文大学(深圳)合作开发的新型自然语言处理模型——“阿深”,在由深圳市委组织部、深圳市人才工作局主办的“《深爱你·圳等你》新书发布暨招才引智活动”上正式发布。“阿深”是一款基于“凤凰”中文大语言模型底座进行开发的人才资讯大模型,涵盖深圳生活导览、创业就业政策、文旅环境消费等多维度内容,将为海内外人才提供关于深圳的政策查询、政策速配、服务资讯等多种功能服务。

香港中文大学(深圳)大模型团队部分师生合照

在香港中文大学(深圳)的师生努力下,国产大语言模型将会融到学校教学科研的方方面面,孕育出更多智慧的火花,未来的发展令人期待。“凤凰”大语言模型,不仅是校园中的学习助手,更是一位全面的知识伙伴。在“凤凰”背后,是无数研究人员的辛勤付出和创新思维的结晶。“凤凰”团队在探索自然语言处理领域取得了重大突破,通过深度学习技术,实现了对大规模数据的全面分析与理解,未来将为学校师生提供强大的学术助力。

“凤凰”大语言模型是香港中文大学(深圳)在人工智能领域迈出的重要一步,“凤凰”研发团队将在未来不断精进技术,为校园带来更多创新与可能,帮助每一位师生在知识的海洋中展翅高飞,携手并进,走进未来,共享智慧。“凤凰”大语言模型将在8月中旬开放内部测试,欢迎关注。

让我们一同迎接这个知识新时代的到来,与“凤凰”一同探索无限可能!

来源:香港中文大学深圳校区 传讯及公共关系处(CPRO)出品

图文由香港中文大学(深圳)“凤凰”大语言模型团队提供

来源:深圳梦(微信号ID:SZeverything)综合

相关文章

  • 港中大深圳校长2023年本科生毕业演讲:人生不是一场游戏!如你算不上成功的,但不能失去对优秀的追求
  • 深圳超北京,一举成为全国“密度”第一城!未来所有到深圳的人都能感受人工智能无处不在!
  • 中央明确!总书记重要指示!深圳宣布以更大热情拥抱,设千亿专投,举全市之力打造,26个城市清单公布!全球人工智能先锋城市要来了
  • 深圳宣布!将数字经济产业纳入规划!《深圳经济特区数字经济产业促进条例》正式公布
  • 国务院宣布!深圳又一全球目标正式提出!未来深圳将再建一座孪生“深圳”!5张图表64个工程,将让深圳能感知、会思考、可进化、有温度
  • 马化腾终于想清楚了!华为又开始全球招募!深圳企业将迎来百年不遇的大机遇
  • 深港再度联手!深圳重磅会谈!香港特首宣布利好落地!
  • 深港两所大学携手!港中大深圳宣布最新蓝图!二期校园、医学院、音乐学院、附属高中等都要来了
  • 港中大深圳又传2大利好!新增4个研究生专业;医学院聚集全球杰出专家,举办了一场大湾区国际高等医学教育高峰论坛!
  • 深圳又一“飞地”!深港再联手!华为顺丰等不及了!9所规划、在建大学曝光
  • 深圳又有2所大学公布招生计划!哈工大(深圳)本科招1375人;香港中文大学(深圳)招1400余人
  • 深圳史上最有声势的毕业典礼院士校长演讲:带上兵法成一个为世界解决问题的人
  • 南科大校长2023年毕业演讲:没有60年的金刚钻,干不了现在的“瓷器活”
  • 港中大深圳校长研究生毕业演讲:有胆识的人,任何时候都是最好的时候!王石:寻找短板,尝试变长!
  • 港中大校长2022开学演讲:很多人不是输在挫折上,而是输在最初的成功上!大学的目的不在于教授了多少知识,是教你求学和做人的地方
  • 深圳又一所医学院要来了!香港中文大学(深圳)医学院终于开工!
  • 深圳又一所医学院来了,选址全面移交用地!
  • 官宣!深圳再添一所大学的附属实验中学,今年开始招生!
  • 深圳又引入一所大学合作!将培养造就一大批教育领军人才及教育家型校长和教师
  • 官方回应!中央“点名”的医学科学院来了,原来大有来头!
  • 2023年深圳教育工作要点发布!深圳海洋大学建设最新进展;宝安中学入住深铁璟城,将提供超3300个学位!

  • 郑秀玉获任深圳市教育局局长!2023年深圳全市教育工作会议划重点了!

  • 2023,深圳最新最全133条规划利好提前曝光,看完它,抢占第一波先机!附深圳市2023政府工作报告全文!

  • 深圳2023年将新增20万个基础学位、25个教育集团!深圳市2023年初中毕业生升学体育考试方案发布

  • 深圳又有2所大学要来了!一所将申报独立高校!另一所就业缺口达20万人!

  • 深圳市长率团访问港澳!深港两所大学签署补充协议,扩大办学规模!

  • 港中大深圳又传2大利好!新增4个研究生专业;医学院聚集全球杰出专家,举办了一场大湾区国际高等医学教育高峰论坛!

  • 深圳建校再创历史新高!教育部批准设立,又引入一所欧洲顶级商学院!

  • 定了!中央支持,深圳第5个医学院来了!对标国际,面向全球招院长!附方案

关于深圳的一切,关注深圳城市、精神生长!

我们的使命是:星辰大海,只与梦想者同行!

拥有深圳梦,请关注(微信号ID:SZeverything)

欢迎来稿,合作,畅谈深圳梦,邮箱至:SZeverything@qq.com


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1