古代日本の戸籍制度(こだいにほんのこせきせいど)は、飛鳥時代に撰定・編纂された律令による人民把握のための戸籍。主なものに庚午年籍(こうごのねんじゃく)や庚寅年籍(こういんのねんじゃく)があげられる。 正倉院文書に古代の戸籍の一部が残されている。また近年、漆紙文書のかたちで秋田城跡や多賀城跡、下野国府
18キロバイト (3,279 語) - 2019年6月10日 (月) 13:04



(出典 2.bp.blogspot.com)



1 猪木いっぱい ★ :2019/07/15(月) 21:28:23.07 ID:LNtW+nQr9.net

今では時代遅れの日本語のスクリプトで書かれた何十億もの古代のテキストの内容は、彼らが持っているかもしれない秘密を解読される事なく、研究者を長い間困惑させました。

*し字として知られる古代の筆記体は、8世紀から20世紀初頭にかけて使用されましたが、現在、世界の人口の0.01パーセント未満しかそれを読むことができません。

現代の漢字に変換されたのは、ごく一部の文字だけです。手書きで言語を転写するには数百年が必要です。

しかし、日本の人文科学におけるオープンデータのためのROIS-DSセンターCのプロジェクト研究者タリンさんは、突破口の瀬戸際にいます。

現在、*し筆文字を検索可能な漢字に変換するためのディープラーニング光学文字認識システムの開発に取り組んでいます。

「私たちが文学から日本の文化や歴史について知っていることはすべて手作業で行われています」と彼女は報道に語った。

「[テキスト]を書き起こして特定の単語を検索できる検索エンジンを作成できれば、他のテキストの内容がより迅速にわかります。」

モントリオール学習アルゴリズム研究所の研究者であるアレクス氏はこのプロジェクトを支援しており、GoogleのAI技術サポートと、国立文学研究所の17~19世紀の書籍のラベル付きデータセットは、機械学習プログラムが4000以上の異なる文字をデコードします。

「機械学習プログラムを開始するときはいつでも、本当に簡単なことから始めたいので、正しいことをしていることを確認することができ、それほど難しいことではありません」

「最初の繰り返しで、文字通り1文字を検出し、それは徐々に最大400文字、その後4000文字まで移動しました。それは絶えず改善しており、まだ進歩の余地があります。」

タリンさんは、このモデルは1ページのテキストを2秒で解読でき、平均精度は85%であると語った。
「日本語の問題は、さまざまな文字が沢山あるということです。機械が学習するのに十分なサンプルを見つけることはできません(100パーセントの精度で十分です)」と彼女は言いました。

「私が感心したことの1つは、モデルが文字と画像のどちらであるかを区別できることです。イラストは文字に近く見えますが、スキップしても十分に賢いことに驚きました。

「人間と機械のコラボレーションが増えると、正確性はずっと高くなると考えられます」

google翻訳
https://www.9news.com.au/technology/artificial-intelligence-ancient-japanese-kuzushiji-texts-being-decoded-by-ai-google-machine-learning-tech-news-update/18669e01-e7f7-4ff4-b30d-885549a7a952
ひらがななのに読みづらい
https://imageresizer.static9.net.au/YE4DxQKW65F55wLgVz2uRCE2Oy0=/1200x0/smart/http%3A%2F%2Fprod.static9.net.au%2Ffs%2F6ce9f4ef-9b23-49a3-a7f5-cd1437d4046b
一般的日本人は右は読めるが左は読めない
https://imageresizer.static9.net.au/MfHQ11YGjsAe9h9RVuQ-f56BRi4=/1200x0/smart/http%3A%2F%2Fprod.static9.net.au%2Ffs%2F743ea959-ce27-4a4b-9f8c-527e21778c6d





23 名無しさん@1周年 :2019/07/15(月) 21:42:50.27 ID:KO2kK/d90.net

>>1
三行で説明しろ


36 @猪木いっぱい :2019/07/15(月) 21:52:52.26 ID:LNtW+nQr0.net

>>23
AIに日本の古文書読ませる特訓中


46 名無しさん@1周年 :2019/07/15(月) 21:57:19.96 ID:ell/fgzS0.net

>>1
何言ってるのかさっぱりわからん


2 名無しさん@1周年 :2019/07/15(月) 21:29:43.27 ID:izmgwmHw0.net

安倍「やれ」
AI「はい」


7 名無しさん@1周年 :2019/07/15(月) 21:33:15.47 ID:fX7YcbOq0.net

日本語が翻訳調で意味がわかりづらいけど
古文書を機会が読んでくれるわけね
一般家庭や神社等に伝わる古文書もコレで読んだり残すことができたら後々役立つね


44 名無しさん@1周年 :2019/07/15(月) 21:56:38.86 ID:mFarMyv30.net

>>7
正直江戸後期以前の古文書の文字は例外を除いて教科書の内容で十分理解できる。

つまり、これは歴史学の方からの要請ではない。


8 名無しさん@1周年 :2019/07/15(月) 21:33:25.73 ID:Dsw8G5d70.net

英語の筆記体も教えろよ
古い手書きの英文が読めなくなる


11 名無しさん@1周年 :2019/07/15(月) 21:33:45.69 ID:DBFezjJ40.net

これは素直にがんばれと言いたい


12 名無しさん@1周年 :2019/07/15(月) 21:34:50.67 ID:X33vM0qD0.net

寺子屋から教育をやり直せばいいだけ。


14 名無しさん@1周年 :2019/07/15(月) 21:35:34.08 ID:ZAFDZ6X10.net

文字に起こしたら更に古い時代の*文学だった
とかか


15 名無しさん@1周年 :2019/07/15(月) 21:36:54.81 ID:a2q7MLMl0.net

AIの一番得意とするところだな


47 名無しさん@1周年 :2019/07/15(月) 21:57:21.30 ID:mFarMyv30.net

>>15
残念。
85パーセントの精度は文章を読む上では全く不十分。

つまり役立たず。


16 名無しさん@1周年 :2019/07/15(月) 21:38:01.26 ID:ITpW501QO.net

文字については昨年、弥生時代の硯(すずり)が発見された事により
なんと7世紀からいっきに3世紀まで時間が巻き戻り
日本の文字使用時期は中国(当時は魏)と並んでしまった


18 名無しさん@1周年 :2019/07/15(月) 21:40:29.34 ID:yVLM4qFh0.net

崩し字は別にいいんだよ、問題は悪筆の方
書き下しで○とか虫食いになってんのは、おおかた字が汚くて何書いてんだか判らんから


20 名無しさん@1周年 :2019/07/15(月) 21:41:51.19 ID:n0Opkihd0.net

漢字は、「夜露死苦」的な当て字ばっかだろ


27 名無しさん@1周年 :2019/07/15(月) 21:45:54.54 ID:xNeL98Kj0.net

>>20
ガチでそうなんだよなぁ


24 名無しさん@1周年 :2019/07/15(月) 21:43:58.36 ID:DCI+L2uH0.net

役所の仕事って窓口対応含めてAIで良いよね
タバコ屋みたいなこといつまでやってんだって感じ


25 名無しさん@1周年 :2019/07/15(月) 21:45:19.10 ID:yPPQ3XH10.net

黄表紙なんかだと割りと読みやすいんだけどな
漢字が入るのとか江戸時代前期のになると読めない


28 名無しさん@1周年 :2019/07/15(月) 21:46:53.83 ID:rYMUjs+c0.net

生活保護の受付はAIにやらせたらいいと思うのよね


30 名無しさん@1周年 :2019/07/15(月) 21:49:05.02 ID:IobRA8Ew0.net

Googleは翻訳とかどうでもいいから
マップのナビをまともに使えるレベルにしろ


33 名無しさん@1周年 :2019/07/15(月) 21:50:00.32 ID:fUmisA060.net

一昔前までコピー機がなかったなんて信じられない
どうやって書類配ったりしてたんだろ


40 名無しさん@1周年 :2019/07/15(月) 21:54:22.58 ID:RvA3lDX50.net

>>33
ガリ版 青焼き、ガキの頃はガリ版刷りのテストのお世話になったね


34 名無しさん@1周年 :2019/07/15(月) 21:51:26.92 ID:RvA3lDX50.net

うちの元神主さんは平仮名の大家だった…本物やで日展の審査員やで 
もらった盆暮れの挨拶 年賀状、、読めね マッタク読めねえ
ソコは年賀状だからとアタリをつけて解読するんや、定型文が多いからな、、そしたらナントカ読めた


39 名無しさん@1周年 :2019/07/15(月) 21:54:01.88 ID:szrtsjMg0.net

これは実に有効なAIの活用方法


45 名無しさん@1周年 :2019/07/15(月) 21:56:46.94 ID:lHVtDU+g0.net

ハーバードの美人女性研究員の人がスラスラ読んでてビックリだったな。
ドキュメンタリーの内容はまったく思い出せないが。


63 名無しさん@1周年 :2019/07/15(月) 22:08:53.72 ID:yPPQ3XH10.net

>>48
左は『女大学』だな
女の心得を説いた江戸時代の本
右は分からん


86 名無しさん@1周年 :2019/07/15(月) 22:42:01.36 ID:EQs/kXrs0.net

>>63
右は尋常小学校用『修身教典』の一節


50 名無しさん@1周年 :2019/07/15(月) 21:59:33.59 ID:RvA3lDX50.net

書き文字で凄いのは戸籍謄本 古い奴は手書きだよ 無茶苦茶小さな文字でしかも楷書で書かれているからな 
今まで見た中では失敗して訂正したのは一つも無かった 凄い精神力だよ


94 名無しさん@1周年 :2019/07/15(月) 22:55:33.45 ID:7uiPflPI0.net

>>50
登記なんかはうんと古い奴は草書で書いてるのがけっこうあって、何書いてあるのか判読するのがたいへんな場合が結構多い
名前は変体仮名も多くて苦労する
変体仮名は戸籍も同じだよね


51 名無しさん@1周年 :2019/07/15(月) 22:00:49.29 ID:slQS0W2W0.net

おとこもすなるにっきというものをおんなもせんと

日本人のお茶目っぷりがバレてしまふ


62 名無しさん@1周年 :2019/07/15(月) 22:08:46.86 ID:kjSouJ2b0.net

>>51
誤)おとこ / にっき / という
正)をとこ / にき / といふ

末尾は
おんなもしてみむとてするなり


64 名無しさん@1周年 :2019/07/15(月) 22:09:29.47 ID:RwugQREg0.net

>>62
そうか、なんか変だと思ったんだよねw


53 名無しさん@1周年 :2019/07/15(月) 22:04:36.96 ID:nu/aluWu0.net

俺が書いたメモとかも数千年後にこうやって解読されるんだろうな


54 <ヽ`∀´> :2019/07/15(月) 22:04:37.82 ID:kyuOE/jN0.net

字は解読出来ても当て字だからねぇ


55 名無しさん@1周年 :2019/07/15(月) 22:05:08.59 ID:5srfh4Cf0.net

0.01%でも読める人は居るのだから
その人に解読してもらえばいいだろ?

その人からAIへ教育してもらってもいい


59 名無しさん@1周年 :2019/07/15(月) 22:07:02.33 ID:MawjOhGV0.net

漢字の草書体は筆跡により判別つかない文字もある。


60 名無しさん@1周年 :2019/07/15(月) 22:07:40.25 ID:p5zwUhfF0.net

学生の頃に教わってたドイツ人の先生は
日本語の草書が読めたんでびっくりした。
日本語は草書が読めないといけないものだと
勘違いしていて、日本に赴任する前に猛勉強
したんだと。


61 名無しさん@1周年 :2019/07/15(月) 22:08:34.53 ID:RwugQREg0.net

江戸時代の万葉仮名読みを思い出すな
当て字いっぱいある中で当てて行ったんだよね


66 名無しさん@1周年 :2019/07/15(月) 22:17:25.19 ID:lhNKdU9O0.net

変体仮名をAIって無理あるんじゃないかなぁ…
候文ならまあ行けるかもしれないけど


67 名無しさん@1周年 :2019/07/15(月) 22:19:14.09 ID:2Ff97N6i0.net

一番下の写真、左。
男子(なんじ)よりも親
の教(をしへ)ゆるかせに
すべからず父母(ふ?)
寵愛(ちやうあい)して恣(ほしひまま)に
育(そだて)ぬれば夫(をつと)の
家(いへ)に行(ゆき)て必(かならず)気(き)
随(ずひ)にて夫(をつと)に疎(うと)
まれ又は舅(しうと)の誨(をしへ)
正(ルビ?)ければ難(がたく)堪(たえ)
思ひ舅(しうと)を恨(うらみ)誹(そし)り

男子「だん」か「なん」か判別不能
父母「ふぼ」か「ふも」か判別不能


81 名無しさん@1周年 :2019/07/15(月) 22:36:16.69 ID:EQs/kXrs0.net

>>67
「正」のルビは「たゞ」
「た」は「多」の草体


70 名無しさん@1周年 :2019/07/15(月) 22:22:45.01 ID:4cX7+aVo0.net

今だったらAIでロゼッタストーンを解読できそう。
研究者がどうしても解読できなかったのに子供が解読したんだよな。


71 名無しさん@1周年 :2019/07/15(月) 22:23:34.83 ID:07NPAQ630.net

書道やってたから中学生になって草書をやる事になって
自分の苗字を草書で書いたんだけど、
それがお歴々の集う本部みたいなところに送られたら
似てるけど違う苗字で登録されたんだよな


72 名無しさん@1周年 :2019/07/15(月) 22:24:13.94 ID:5pWmRgWZ0.net

色々解読できてない古文書や文字をAIで
解読できるのかなあ?


75 名無しさん@1周年 :2019/07/15(月) 22:27:39.08 ID:MD7hHxw60.net

確かに崩されると読めないんだよな


79 名無しさん@1周年 :2019/07/15(月) 22:32:56.36 ID:nJ0UEPJj0.net

解読できても俺らのご先祖様だから
しょーもないことしか書いてないんだろうな(´・ω・`)


87 名無しさん@1周年 :2019/07/15(月) 22:43:38.57 ID:M53ttr4R0.net

>>79
あの、膨大な文書群があってまるで解読されていないジャンルに
江戸時代の市井の人士が書いた随筆ってジャンルがあるんだけどw
これはまあ相当くだらないことしか書かれてないだろうと言われているねwww
そりゃまあ23世紀の歴史学者が前々世紀初頭の2ちょんねるのカキコを
精読しるって言われたら、そりゃうんざりするよなwww

>>57
そうだよ? 当然じゃないか
偉大なる大韓が宇宙の起源。そうだね。
それの何が不思議なの?www


80 名無しさん@1周年 :2019/07/15(月) 22:34:46.59 ID:BeRa7Spd0.net

達筆すぎて読めない


82 名無しさん@1周年 :2019/07/15(月) 22:36:51.45 ID:yPPQ3XH10.net

平仮名主体の出版物ならわりと読みやすいんだけどな
例えば葛飾北斎が絵も文も手がけた高尚な芸術作品の一部を読み下すと

(出典 i.imgur.com)

数えで13歳のおさねが両親の行為をのぞき見る場面

おさねはこの風情を見てくわっとのぼせ顔は紅のごとくにて
めめっこの中は火のようになって堪えられねば、中指にてめめっこの内をそちこちとかき回せしが
思わず総身がぞっとしてどうも言われぬ心持ち、腰がむず痒くなるよと見えしが
白水のごとき淫水がピョッピョッピョッと弾き出して、気の行くという事をこの時初めて覚えける


83 名無しさん@1周年 :2019/07/15(月) 22:37:14.06 ID:Ko9yly3U0.net

古文書を読めないということは、過去の知的財産が活かされてないということだから勿体ない。
*し字を学ぶということが伝統の継承そのものだな。


91 名無しさん@1周年 :2019/07/15(月) 22:51:58.88 ID:EQs/kXrs0.net

>>83
慣れれば或る程度までは読める


98 名無しさん@1周年 :2019/07/15(月) 22:59:19.46 ID:Ko9yly3U0.net

>>91
習うより慣れろというからね。
仮名の読みにはゴールが見えてる感じはするんだが、しかし漢字の解読は先が見えない。


99 名無しさん@1周年 :2019/07/15(月) 23:01:38.33 ID:EQs/kXrs0.net

>>98
変体仮名を読む書くトレーニングを積むと、漢字の*しかたが見えてくる
あとは語彙からあたりをつけることになるかな


85 名無しさん@1周年 :2019/07/15(月) 22:41:30.97 ID:nV38qAIQ0.net

昔の人って草書体読めたの?現代人からすると汚い字にしか見えない


88 名無しさん@1周年 :2019/07/15(月) 22:43:41.25 ID:f1JQ/yNY0.net

>現代の漢字に変換されたのは、ごく一部の文字だけです。手書きで言語を転写するには数百年が必要です。
何を言ってるんだ?この人は
メソアメリカの絵文字か何かと勘違いしてないか?


90 名無しさん@1周年 :2019/07/15(月) 22:47:43.11 ID:NK1BW7oX0.net

ご先祖さんのミミズの這った字を、現代語に翻訳しようって企画?


92 名無しさん@1周年 :2019/07/15(月) 22:52:39.96 ID:zIgjwPpf0.net

実家から草書体の筆書きで手紙来るんだが読めない・・


95 名無しさん@1周年 :2019/07/15(月) 22:56:51.46 ID:M53ttr4R0.net

>>92
それは黒やぎ/白やぎメソッドで解決するしかないなw
つまり、、、読まずに食べるwww
そんで返事をかくんだ「さっきの手紙の御用事is何?」ってさw
もちろん書体は天下の狂草体でなwww

狂草体ってわかる?w
草書よりさらにくだいた、もはや書の形をしたアートみたいな奴なw
そういう衒学知恵くらべをやるんだよwww
そもそも草書がそういうものだったんだから


96 名無しさん@1周年 :2019/07/15(月) 22:56:59.88 ID:KLs17IwZ0.net

ちらし書きは研究者でも難儀する


97 名無しさん@1周年 :2019/07/15(月) 22:58:05.08 ID:EQs/kXrs0.net

>>96
女房奉書の類か