Wikipedia より
コーパス(corpus)とは、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化では言語的な情報(品詞、統語構造など)が付与される。コンピュータ利用が進み、電子化データとなった。
コーパス(corpus)とは、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化では言語的な情報(品詞、統語構造など)が付与される。コンピュータ利用が進み、電子化データとなった。
この「コーパス」、世界中に溢れている。
完成したものもあれば、作成途中のものもある。あるいは、永遠に未完成のものもある。
完成したものもあれば、作成途中のものもある。あるいは、永遠に未完成のものもある。
たとえば、、
British National Corpus
略してBNC。1億語の徹底したサンプル・コーパス(バランスよく様々な領域からサンプリングして構築したコーパス)。かつてはその中に含まれていたデータの著作権者の一人が,どういうわけかEU以外での販売の禁止を主張したため,わが国でも入手が不可能となり,研究の進展を妨げていた。しかし,BNCは世界からの要望に答え,この「問題の」データをはずしたため,現在誰でも購入できるようになった。契約書(End User Licence)を2枚送って申し込めば,CD-ROM2枚が送られてくる(SARAというコンコーダンサが付いている)。シングルユーザーで£50。クレジットカードでの申し込みが可能。今後コーパスを本格的に使おうという人は買って損はしない。ただ,なにぶん1億語なので解凍するときに,パソコンがフリーズしたかと思うほど時間がかかるので覚悟しておくこと ^^;
(なお、現在の価格は、single copy: GBP 75=¥9764)
略してBNC。1億語の徹底したサンプル・コーパス(バランスよく様々な領域からサンプリングして構築したコーパス)。かつてはその中に含まれていたデータの著作権者の一人が,どういうわけかEU以外での販売の禁止を主張したため,わが国でも入手が不可能となり,研究の進展を妨げていた。しかし,BNCは世界からの要望に答え,この「問題の」データをはずしたため,現在誰でも購入できるようになった。契約書(End User Licence)を2枚送って申し込めば,CD-ROM2枚が送られてくる(SARAというコンコーダンサが付いている)。シングルユーザーで£50。クレジットカードでの申し込みが可能。今後コーパスを本格的に使おうという人は買って損はしない。ただ,なにぶん1億語なので解凍するときに,パソコンがフリーズしたかと思うほど時間がかかるので覚悟しておくこと ^^;
(なお、現在の価格は、single copy: GBP 75=¥9764)
KOTONOHA:国立国語研究所のコーパス開発計画
日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものを言語コーパス (language corpus)と呼びます。コーパスは1960年頃から言語研究のために構築されるようになりましたが、近年では狭い意味での言語学の領域を超えて、幅広い研究領域で利用されるようになってきました。また学術目的での利用だけでなく、産業界でも利用されています。・・もちろん、このほかに、日本語に興味をもつ個人が、言葉に関する疑問を解消するためにコーパスを利用することも考えられます。
以下の図はKOTONOHAの全体像とこれから構築を開始する書き言葉均衡コーパスの関係を示しています。横軸は時間軸で、明治から現代までを示しています。縦軸は言葉のジャンルを示しており、上半分が書き言葉、下半分が話し言葉に該当します。KOTONOHAは図中の全領域を対象としますが、全体を単一のコーパスとして一気に実現することはできませんので、適当なまとまりごとに要素となるコーパスを構築することによって、段階的に整備を進めます。
日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものを言語コーパス (language corpus)と呼びます。コーパスは1960年頃から言語研究のために構築されるようになりましたが、近年では狭い意味での言語学の領域を超えて、幅広い研究領域で利用されるようになってきました。また学術目的での利用だけでなく、産業界でも利用されています。・・もちろん、このほかに、日本語に興味をもつ個人が、言葉に関する疑問を解消するためにコーパスを利用することも考えられます。
以下の図はKOTONOHAの全体像とこれから構築を開始する書き言葉均衡コーパスの関係を示しています。横軸は時間軸で、明治から現代までを示しています。縦軸は言葉のジャンルを示しており、上半分が書き言葉、下半分が話し言葉に該当します。KOTONOHAは図中の全領域を対象としますが、全体を単一のコーパスとして一気に実現することはできませんので、適当なまとまりごとに要素となるコーパスを構築することによって、段階的に整備を進めます。
ここに例として挙げたコーパスは、その構築に相当の資金・人員・時間を要する。
とても一個人で太刀打ち出来るシロモノではない。
とても一個人で太刀打ち出来るシロモノではない。
しかし、その仕様というかフォーマットというか、あるいは構築に際してのルールは、個人が趣味でテキストマイニングを行なう際の小規模なコーパス作りにも、できれば採用したいものである。
まぁ、今のところは形態素解析という低水準で右往左往しているだけなので、とりあえずこのレベルでのガイドラインとして、国立国語研究所のコーパス開発計画に記載されているものに準拠しようと思う。
ちなみに、現在、解析エンジン MeCab で使っている辞書 UniDic は、この開発計画の成果物の一部である。
ちなみに、現在、解析エンジン MeCab で使っている辞書 UniDic は、この開発計画の成果物の一部である。
参照::形態論情報