本书：AI 使数百万古代日语文本更易于理解

自然灾难不仅仅是对人和建筑的威胁，它们还会销毁罕见的档案文件，继而导致消除历史。作为一项防护措施，日本的学者们正在对日本数世纪的古代纸质记录进行数字化，通常对每页进行扫描或拍照。

但是，虽然这种方法可以保留数字形式的内容，但研究人员却无法阅读该内容。现在有以一种叫做 Kuzushiji （崩字）的已过时字体编写的数百万个物理书籍和文档，但是只有不到 10% 的日语人文学科教授可以理解。

来自日本的 ROIS-DS 人文学科开放数据中心的研究员 Tarin Clanuwat 说：“我们最终将得到数十亿张图像，需要研究员研究数百年。”“我们还没有简单的方法来理解包含在这些图像中的信息。”

将每页中的词提取为机器可读、可搜索的形式需要额外的步骤：转录，这可以手动完成，也可以通过计算机视觉方法，叫做光学字符识别或 OCR。

Clanuwat 和她的同事正在开发一种深度学习 OCR 系统，以转录 Kuzushiji 编写的内容，可用于从 8 世纪到 20 世纪初现代日文汉字字符的大多数日本文本。

Clanuwat 认为 GPU 对于 AI 的训练和推理来说都是必不可少的。

她表示：“如果没有 GPU，那真的是很难以想象。”“GPU 不仅能帮助您提高工作速度，而且可以实现这种研究。”

分析遗忘脚本

在 1900 年日语语言与现代印刷出现标准化之前，Kuzushiji 广泛应用于书籍和其他文档。虽然数百万条历史文本以草书字体编写，但是现在只有少数专家可以阅读这些内容。

只有一小部分 Kuzushiji 文本已转换为现代字体，但是让专家手动转录书籍，非常耗时且昂贵。借助由 AI 提供支持的 OCR 系统，Clanuwat 希望可以通过学者们让更多作品更加易于阅读和搜索。

她与其研究团队和日本国家信息院的 Asanobu Kitamoto 以及在蒙特利尔学习算法研究所 (Montreal Institute of Learning Algorithms) Alex Lamb 进行合作，一起致力于研究 OCR 系统。2018 年，在颇有声望的 NeurIPS 大会上，他们的论文在机器学习创意和设计研讨会上得到了认可。

研究人员使用来自国文学研究资料馆的 17 到 19 世纪的标签数据集，在 NVIDIA GPU 上训练了其深度学习模型，包括 TITAN Xp。Clanuwat 说，该模型的训练大约花了一周时间，但在 CPU 上训练是“不可能的”。

Kuzushiji 具有数千个字符，很多情况下数据集都会出现非常罕见的字符，而深度学习模型很难识别它们。尽管如此，研究人员的 KuroNet 文档识别模型的平均准确度均为 85%，远远胜过之前的模型。

最新版本的神经网络可以识别超过 2000 个字符。对于不超过 300 个字符类型的较简单文档，精确度会高达约 95%，Clanuwat 表示。“数据集中的最难的文档之一是字典，因为它包含很多罕见和不常用的词。”

研究人员所面临的一项挑战是，发现 Kuzushiji 悠长历史中的典型训练数据。该字体在过去数百年内发生了变化，而训练数据来自较晚的江户时代。

Clanuwat 希望深度学习模型能够将日本古典文献、历史文档和气候学记录的访问权扩展到更广泛的受众。

主图像显示了来自 Genji Monogatari Utaawase Emaki（源氏诗会）的摘录，时间大概是 16 世纪左右。来自 ROIS-DS 中心人文学科开放数据的现代日文文本数据集图像，属于日本文献研究院。