近日,学而思的作文素材产品合作方笔神作文在其公众号发文称,指学而思在短短一个周末的时间,用爬虫爬取其作文素材库达200多万次,盗取了公司的作文库存。
笔神作文称学而思AI大模型盗取其数据
6月13日,笔神作文在其公众号和微博发文称,学而思在今年4月13日至4月17日,通过“爬虫”技术非法访问、缓存笔神作文APP服务器数据多达258万次。
笔神作文表示,这一行为不仅违反了双方的合同条款,也违反了“任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据”的规定,严重侵犯了笔神作文的数据权益。
事后,笔神作文向学而思进行求证,对方直接承认是算法组在爬取数据并作为己用。公司也发送律师函但并没有得到实质性回复。
同时,笔神作文指出,在不到一个月的时间,学而思的AI大模型MathGPT里包含的新产品“作文AI助手”就即将上线。
笔神作文称,作为一家体量远小于学而思的公司已经别无他法,只能通过法律途径来维护权益,但目前的法律法规并没有“AI大模型数据盗取”的判决先例。“我们走司法程序,并不是为了索求高额的赔偿,我们只想要学而思支付1元赔偿金,公开道歉并删除已爬取的数据。”
天眼查APP信息显示,笔神作文为北京一笔两划科技有限公司旗下产品,该公司成立于2017年,位于北京市,是一家以从事科技推广和应用服务业为主的企业。企业注册资本15.1777万人民币,实缴资本4.0821万人民币。公司目前已经完成了5轮融资,其中最后一轮是2022年4月完成的A+轮,其投资方包括搜狗、真格基金、世纪天鸿、不惑创投、志鸿教育产业基金等。知识产权方面,公司拥有商标信息35条,专利信息1条,著作权信息20条。
双方各执一词
随后,学而思在官方公众号上发布声明称,首先,MathGPT是专注于数学领域的自研大模型,没有任何作文相关数据;其次,“作文AI助手”目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。
学而思表示,2020年12月至今,确与笔神作文就作文素材调用签署相关合作,合作协议明确约定:笔神作文为学而思提供“笔神作文范文素材服务接口”,用于学而思相关服务中,每月保底费用包含的调用次数为百万次量级。合作至今,双方一直按照调用量进行正常结算。
6月14日晚,笔神作文再次发文称,“学而思”在声明里提到调用数据为正常使用,但在2023年4月13日至4月17日之间,公司检测到服务器接口出现大量有规律的异常访问,导致服务器承载压力快速升高。
通过查阅服务器日志发现:三体云联公司(学而思关联公司)未经一笔两划公司授权许可,用单一IP通过“爬虫”技术非法访问一笔两划公司服务器数据多达258万次。
笔神作文称,学而思“爬虫”基本上把库里同个题目的所有作文全部抓取完了,这种行为不是正常人使用的方式。而且很多访问的间隔都是100毫秒左右,也不可能是正常人访问的速度。按业内的通常说法,这就是一种典型的“扒库”行为。
目前,学而思尚未对此作出回应。
此前, 好未来于5月5日发文表示,学而思正在进行数学大模型 ——MathGPT 的研发,其面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心打造而成。目前,该 AI 数学大模型已经取得阶段性成果,并将于年内推出基于该自研大模型的产品级应用。
消息显示,MathGPT 作为学而思的核心项目,由 CTO 田密负责。今年春节前,该项目已经启动相应的团队建设、数据、算力准备和技术研发,并且已启动在美国硅谷的团队建设,将成立一支海外算法和工程团队,在全球范围内招募优秀的人工智能专家加入。
除此之外,学而思学习机将上线一款“AI 助手”,涵盖作文助手、口语助手、阅读助手、数学助手等相关功能,该 AI 产品于 5 月 11 日开启内测。
来源:读创综合
审读:孙世建
上海钢泽合金 2024-12-19
赋创科技 2024-12-19
AmBeed 2024-12-19