国立国会図書館、OCRテキストをNIIに提供 大規模言語モデル開発を支援

国立国会図書館(NDL)は10月1日、国立情報学研究所(NII)に対し、デジタル化資料のOCRテキストデータを提供することで合意したと発表しました。
対象となるのは、官庁出版物を中心に1995年までに刊行された図書や雑誌、官報など約30万点で、OCR(光学文字認識)によって作成された全文データが含まれます。
【参照元】2025年10月1日 国立情報学研究所における大規模言語モデル構築への協力について
取り組み概要
この取り組みは、NIIが推進する大規模言語モデル(LLM)の研究開発を支援するためのものです。NDLが蓄積してきた膨大なテキスト資源が学習データとして活用されることで、日本語に特化したAIモデルの品質向上につながることが期待されています。
両機関の協力は新しいものではなく、1995年4月に締結された「NDLと学術情報センターの相互協力協定」に基づく長年の連携の延長線上に位置づけられます。今回の合意は、学術研究と社会実装の両面で生成AIの発展を後押しする重要な一歩といえます。
まとめ
国立国会図書館は、30万点規模のOCRテキストをNIIに提供し、日本語大規模言語モデルの学習基盤を支援します。国の研究機関同士が連携し、生成AIの発展を公的資料から後押しする動きは、今後のAI研究の方向性に大きな影響を与える可能性があります。
【用語解説】
・国立国会図書館(NDL)
日本の国立図書館。国会や政府機関の活動を支えると同時に、国民に対しても図書・資料を提供している。
・国立情報学研究所(NII)
大学共同利用機関法人の一つ。情報学分野の研究を担い、学術情報ネットワークの整備やAI研究を進めている。
・OCR(光学文字認識)
スキャニングした画像から文字を読み取り、テキストデータに変換する技術。古い書籍や資料のデジタル化に不可欠。
・大規模言語モデル(LLM)
膨大なテキストデータを学習して自然な文章を生成・理解できるAIモデル。ChatGPTなどもLLMの一種。