古文書を自動翻訳する日も近い!?江戸時代の8万字超の「くずし字 字形データ」が無償公開へ

| Japaaan
古文書を自動翻訳する日も近い!?江戸時代の8万字超の「くずし字 字形データ」が無償公開へ

大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NI)と大学共同利用機関法人 人間文化研究機構 国文学研究資料館(国文研)がすごいデータを無償公開しました!

11月17日に公開されたのは、江戸時代の古典籍に書かれたくずし字の1文字ずつの字形画像データ。その数なんと8万6176件(1,521文字種)になります。

「どういうこと?」と思ってますか?どれほどすごいことか、以下のリリース情報の画像解説を見ればわかります!

データは「日本古典籍字形データセット」という名称で、字形画像データのほか、文字が古典籍のどの位置に書かれているかを示す文字座標データと、原本の画像データも含まれています。このデータは二次利用を歓迎するオープンデータとして無償提供中

例えば、古典籍から抽出された「あ」のほんの一部。「あ」にも色々な癖がある。

例えば、古典籍から抽出された「か」のほんの一部。

ピックアップ PR 
ランキング
総合
カルチャー