自然言語処理メモ 20191208~
20191208
読書
小林雄一郎(2019年)「ことばのデータサイエンス」朝倉書店
言語研究のための分析対象のデータについて
→「garbage in, garbage out(ダメなデータからはダメな結果しか得られない)」という言葉の通り、闇雲なデータではダメで、個々の研究目的に合ったデータを集める必要がある。即ち、分析データの設計が重要となる。
データの代表性
データの設計にあたり、分析対象の母集団の想定が必要になる。例えば、研究対象が「村上春樹の文体」であるならば、彼の全著作が分析対象の母集団となることが想定される。研究対象が「現代日本語」であれば、現代日本における全ての日本語がデータの母集団と想定される。
この時、母集団が小規模であればあるほど、データ設計と収集は容易となり、母集団の範囲が大きくなればなるほど、データ設計の定義自体が難しくなり、また全てのデータが集積できなくなる、という問題が生じる。(実際のデータ解析では、「出版目録に記載されている2000年以降の作品全て」、や「2018年1月1日から12月31日までの間における『商品X』という文字列を含むツイート全て」といった、データの収集可能性、完全性が現実的でより具体的な母集団を定義する場合が多い。)
言語研究において、具体的な設計基準で収集されたテキストデータの総体を「コーパス」と呼ぶ。コーパスの定義は研究者によって若干異なり、一般的に、機械可読性(コンピュータが処理可能な形式で保存されていること)、真正性(言語として現実で使用されたテキストデータを収録していること)、代表性(分析対象の母集団の特性がよく分かる、映し出されている、反映されているということ)を持つと言われる。