哈佛大学开源 AI 训练数据集 Institutional Books 1.0

Source

品玩6月17日讯,据 HuggingFace 页面显示,哈佛大学近日开源了一款名为Institutional Books 1.0 的AI 训练数据集。

据悉,该数据集中含983,004本公共领域图书,这些图书作为哈佛大学图书馆参与谷歌图书项目的一部分被数字化,并由机构数据倡议(IDI)进一步优化。这些数据涵盖235中语言,其中40%是英文出版物,主要出版于19世纪和20世纪。

据悉,该数据集的使用受IDI早期访问条款的约束。