SNAGeek

Sociologically Technological, and Technologically Sociological

Thinking Through Statistics 第8章についてのメモ

※この記事は年明けの読書会での資料作成用メモです。

Chapter 8: When the World Knows More about the Processes than You Do

Making Knowledge out of Ignorance

  • 無知が誤った結論を導くケース
    • 特にこの章で扱うのは、不十分な測定が紐帯を過小/過大評価するケース。
    • (例)階級同類婚
      • 研究者の階級観と被調査者の階級観は異なる。
      • 階級の数をどう決めるか=どのようにも決められるという問題がある。
      • 極端に言えばランダムにカテゴリを振れば同類婚は起きないと結論づけられる。

Families

  • 世界は我々がアクセスできない情報を持っていることがある。
    • (例)人種の自認 — 本人の宗教と祖父母世代の交絡
  • 我々のモデルやデータが不完全な時、実世界とは異なる形式での連関が認められる。
    • (例)三世代での階層移動データ
      • 世代に関するマルコフ性だけを仮定した架空データでも、OLSすると祖父母世代の影響が出てくる。
      • ランダムな回答誤差を与えるだけでこれが起きてしまう。

Social Networks: What They Know

  • ネットワークデータの統計的処理に関する諸問題
    • サンプル間の非独立性
    • 研究者が関知しない属性の影響
    • 存在的非独立性(existential non-independence)
      • ある紐帯の存在/非存在が他の紐帯のそれに影響を与える。

Letting the Network Determine Your Sample

  • ネットワークサンプリングに関する諸問題
    • スノーボールサンプリングの一種であるRDS(respondent-driven sampling)は体系的に代表的でない。
      • 数珠つなぎ的にサンプルを選んでいくと、ポピュラーな人にたどり着きやすく、つながりが少ない人にはアクセスしにくい(c.f. Friendship Paradox)。
      • SalgenikによるRDSの修正
        • 重複抽出を許容する。
        • 回答者の知り合いからランダムに抽出する。
      • RDSには限界があったが、それでもこの手法でどこまでのことが現実的に言えるのかを評価していくことは重要。

Interdependencies

  • ネットワークデータの構造的相互依存性にどう対処するか
    • 中和 — 相互依存性に対してロバストな手法を使うこと
      • QAP
        • 並び替え検定の一種。
      • multiway non-nested clustering to correct standard errors
    • 構造を記述するに留める
    • 構造的な原理それ自体を説明する
      • ERGMs
        • ネットワークをその局所的な構造に因子分解することで、ネットワーク形成メカニズムをモデリングする。
          • 問題:
            • モデル退化(degeneracy)の問題。
            • そもそもパラメータが一切推定できなくなる場合がある。
            • 非構造的なパラメータ(e.g. ノードの属性)はHammersley-Cliffordの定理とのつながりを欠いている。
        • ERGMの「儀礼化」(=何も考えずにとりあえずERGMを使っておけばいいだろうという思考停止のこと?)は問題で、ERGMの推定でクラッシュするくらいなら、たとえbestimatesでなくても、ロジスティック回帰を使ったほうがよいという判断もありえる。