自然灾难不仅仅是对人和建筑的威胁,它们还会销毁罕见的档案文件,继而导致消除历史。作为一项防护措施,日本的学者们正在对日本数世纪的古代纸质记录进行数字化,通常对每页进行扫描或拍照。
但是,虽然这种方法可以保留数字形式的内容,但研究人员却无法阅读该内容。现在有以一种叫做 Kuzushiji (崩字)的已过时字体编写的数百万个物理书籍和文档,但是只有不到 10% 的日语人文学科教授可以理解。
来自日本的 ROIS-DS 人文学科开放数据中心的研究员 Tarin Clanuwat 说:“我们最终将得到数十亿张图像,需要研究员研究数百年。”“我们还没有简单的方法来理解包含在这些图像中的信息。”
将每页中的词提取为机器可读、可搜索的形式需要额外的步骤:转录,这可以手动完成,也可以通过计算机视觉方法,叫做光学字符识别或 OCR。
Clanuwat 和她的同事正在开发一种深度学习 OCR 系统,以转录 Kuzushiji 编写的内容,可用于从 8 世纪到 20 世纪初现代日文汉字字符的大多数日本文本。
Clanuwat 认为 GPU 对于 AI 的训练和推理来说都是必不可少的。
她表示:“如果没有 GPU,那真的是很难以想象。”“GPU 不仅能帮助您提高工作速度,而且可以实现这种研究。”
分析遗忘脚本
在 1900 年日语语言与现代印刷出现标准化之前,Kuzushiji 广泛应用于书籍和其他文档。虽然数百万条历史文本以草书字体编写,但是现在只有少数专家可以阅读这些内容。
只有一小部分 Kuzushiji 文本已转换为现代字体,但是让专家手动转录书籍,非常耗时且昂贵。借助由 AI 提供支持的 OCR 系统,Clanuwat 希望可以通过学者们让更多作品更加易于阅读和搜索。
她与其研究团队和日本国家信息院的 Asanobu Kitamoto 以及在蒙特利尔学习算法研究所 (Montreal Institute of Learning Algorithms) Alex Lamb 进行合作,一起致力于研究 OCR 系统。2018 年,在颇有声望的 NeurIPS 大会上,他们的论文在机器学习创意和设计研讨会上得到了认可。
研究人员使用来自国文学研究资料馆的 17 到 19 世纪的标签数据集,在 NVIDIA GPU 上训练了其深度学习模型,包括 TITAN Xp。Clanuwat 说,该模型的训练大约花了一周时间,但在 CPU 上训练是“不可能的”。
Kuzushiji 具有数千个字符,很多情况下数据集都会出现非常罕见的字符,而深度学习模型很难识别它们。尽管如此,研究人员的 KuroNet 文档识别模型的平均准确度均为 85%,远远胜过之前的模型。
最新版本的神经网络可以识别超过 2000 个字符。对于不超过 300 个字符类型的较简单文档,精确度会高达约 95%,Clanuwat 表示。“数据集中的最难的文档之一是字典,因为它包含很多罕见和不常用的词。”
研究人员所面临的一项挑战是,发现 Kuzushiji 悠长历史中的典型训练数据。该字体在过去数百年内发生了变化,而训练数据来自较晚的江户时代。
Clanuwat 希望深度学习模型能够将日本古典文献、历史文档和气候学记录的访问权扩展到更广泛的受众。
主图像显示了来自 Genji Monogatari Utaawase Emaki(源氏诗会)的摘录,时间大概是 16 世纪左右。来自 ROIS-DS 中心人文学科开放数据的现代日文文本数据集图像,属于日本文献研究院。