「これからのための気持ちの整理。 」

これからのことを考えています。本当に、本当にめんどうくさい、めんどくさい人間です。これからのために、気持ちの整理をします。

自然言語処理メモ 20191208~

20191208

読書

林雄一郎(2019年)「ことばのデータサイエンス」朝倉書店

 

言語研究のための分析対象のデータについて

→「garbage in, garbage out(ダメなデータからはダメな結果しか得られない)」という言葉の通り、闇雲なデータではダメで、個々の研究目的に合ったデータを集める必要がある。即ち、分析データの設計が重要となる。

データの代表性

データの設計にあたり、分析対象の母集団の想定が必要になる。例えば、研究対象が「村上春樹の文体」であるならば、彼の全著作が分析対象の母集団となることが想定される。研究対象が「現代日本語」であれば、現代日本における全ての日本語がデータの母集団と想定される。

この時、母集団が小規模であればあるほど、データ設計と収集は容易となり、母集団の範囲が大きくなればなるほど、データ設計の定義自体が難しくなり、また全てのデータが集積できなくなる、という問題が生じる。(実際のデータ解析では、「出版目録に記載されている2000年以降の作品全て」、や「2018年1月1日から12月31日までの間における『商品X』という文字列を含むツイート全て」といった、データの収集可能性、完全性が現実的でより具体的な母集団を定義する場合が多い。)

 

コーパス

言語研究において、具体的な設計基準で収集されたテキストデータの総体を「コーパス」と呼ぶ。コーパスの定義は研究者によって若干異なり、一般的に、機械可読性(コンピュータが処理可能な形式で保存されていること)、真正性(言語として現実で使用されたテキストデータを収録していること)、代表性(分析対象の母集団の特性がよく分かる、映し出されている、反映されているということ)を持つと言われる。