自然言語処理メモ 20191208～ - 「これからのための気持ちの整理。」

20191208

読書

小林雄一郎（2019年）「ことばのデータサイエンス」朝倉書店

言語研究のための分析対象のデータについて

→「garbage in, garbage out（ダメなデータからはダメな結果しか得られない）」という言葉の通り、闇雲なデータではダメで、個々の研究目的に合ったデータを集める必要がある。即ち、分析データの設計が重要となる。

データの代表性

データの設計にあたり、分析対象の母集団の想定が必要になる。例えば、研究対象が「村上春樹の文体」であるならば、彼の全著作が分析対象の母集団となることが想定される。研究対象が「現代日本語」であれば、現代日本における全ての日本語がデータの母集団と想定される。

この時、母集団が小規模であればあるほど、データ設計と収集は容易となり、母集団の範囲が大きくなればなるほど、データ設計の定義自体が難しくなり、また全てのデータが集積できなくなる、という問題が生じる。（実際のデータ解析では、「出版目録に記載されている2000年以降の作品全て」、や「2018年1月1日から12月31日までの間における『商品X』という文字列を含むツイート全て」といった、データの収集可能性、完全性が現実的でより具体的な母集団を定義する場合が多い。）

コーパス

言語研究において、具体的な設計基準で収集されたテキストデータの総体を「コーパス」と呼ぶ。コーパスの定義は研究者によって若干異なり、一般的に、機械可読性（コンピュータが処理可能な形式で保存されていること）、真正性（言語として現実で使用されたテキストデータを収録していること）、代表性（分析対象の母集団の特性がよく分かる、映し出されている、反映されているということ）を持つと言われる。