SNAGeek

Sociologically Technological, and Technologically Sociological

SSIシンポジウムに行ってきた。

社会情報学会(SSI)主催のシンポジウム「ビッグデータの可能性と課題──監視・シュミレーション・プライバシー」に行ってきた。開催地は中央大学駿河台記念館で、本郷から自転車に乗って5分程度で着いた。会場は非常にこじんまりとした会議室で、20人程度の参加者がいたと思う。

 

発表者・発表題目は以下の通りである。

 

橋田浩一(東京大学)

「集めないビッグデータ: 情報の分散管理による個人の尊厳と公共の福祉

板倉陽一郎(弁護士)

ビッグデータに関連する制度検討の現状」

吉田寛(静岡大学)

「世界表象としてのビッグデータ

 

橋田さんの「集めないビッグデータ」は、パーソナルデータを集中管理するよりも、各個人に分散させ、各個人が共有する範囲を決めるようにする(=分散PDS)ほうが、コスト削減や「人間の尊厳」、または「公共の福祉」にとって良い、というような内容であった。橋田さんは現実的なコスト、あるいはベネフィットや、具体的な実装例を中心にお話されていたが、先日自主ゼミで扱ったISED第6回に登場した「リトルイッツ同士のアンリンカビリティ」という論点と重なる部分が大きく、僕は終始プライバシーの問題として話を聞いていた。

板倉さんは、現在、日本の政府委員会のレベルで現在どの程度まで政策協議が進んでいるかという現状報告をされた。「『個人情報保護法は世紀の悪法だ!』と批判していた新聞も絶対100年間ずっと批判するわけではない。それどころか2,3年たったらどの新聞も何も言わない。忘れられ始めた頃が一番気をつけなければならない。」(大意)という言葉が印象的であった。面白そうな内容だけを何点か紹介しておく。一つ目、欧米の議論がパーソナルデータ「保護」を中心としているのに対して、日本はパーソナルデータ「利活用」が中心らしい。が、これは政府意向に沿うかたちで表向きにはそうなっているだけであって、実際には「保護」についても積極的に議論が進んでいる。二つ目、「利活用」に主眼が置かれていることとも関連するが、「個人が特定される可能性を低減したデータ」を、本人同意なしで利用可能にする動きがあるということである。このあたりは「低減」の基準をめぐって色々と議論の余地がありそうな気がする。

このシンポジウムで最も興味深かったのが吉田さんの発表であった。吉田さんはウィトゲンシュタインがご専門のようだが、今回の発表は「ビッグデータ」を「表象」という視点から読み解く、というのが主旨であった。まず、「表象」とは「対象があり、それを再度何らかの媒体によって提示したもの」であり、それはさらに「局所表象」と「分散表象」の2種類に下位分類できることを確認しておく。局所表象とは、表象の処理過程が可視化・分析できるような表象のことで、ざっくり言えば意味のある仕方でまとまっている表象のことである。一方、分散表象とは、その処理過程がブラックボックスになっているような、ざっくり言えば意味のある仕方で取り出せない表象のことである。吉田さんは、このような区別を置いた上で、「ビッグデータという分散表象から、突然リスクが局所表象として出現する」可能性があるという問題提起を行う。ビッグデータとはまさに分散表象である。巨大なデータの集合は、一見すると「もやもや」していて、「わけのわからない」もののように見える。しかし、そのデータに対して、例えば重回帰分析などの統計的手法を適用することで、何らかの規則性を取り出すことができる。これは分散表象を局所表象に変換することと意味的に対応している。問題なのは、この変換の過程がブラックボックスになっていることである。話が抽象的だから、例を出しておこう。この点に関して、質疑応答で橋田さんが将棋プログラムの話をされていた。かつての将棋プログラムは、人間がプログラムに特定の戦略をインプットする方式で作られていた。だから、開発者はある状況でのプログラムの動きを自分で説明することができた。しかし現在の将棋プログラムは、膨大な試合のデータなどを統計的に処理させる機械学習というプロセスで作られている。だから、開発者でさえも将棋プログラムの挙動を説明できない。もう一つ、こちらは吉田さん自身が挙げた例であるが、遺伝子データを解析すると重大な病気のリスクが判明することがある。だが、このようなケースでは、おおかたの場合、そのようなデータを解析するとなぜそのような結果が得られるのか、その解釈が判然としない。このようなことを吉田さんは「雨乞い」に似た、反知性主義であると言っていたが、ビッグデータにおいては、このように「システムが突然語り出す」。分散表象(=遺伝子データ)から、突如として局所表象(病気のリスク)が浮かび上がってくる。そして、このシステムは「いったん起動したら、理由はわからなくても従うか従わないかの決断しかない」。遺伝子データの解析から、重大な病気のリスクが分かってしまったら、その病気を治療するか/治療しないかという決断をしなければならない。ここで、主体性や自由はもちろん、「誰か責任を取るか」という問題が前景化してくる。これは、データサイエンティストがその責任を取ればいい、という単純な問題ではない。データサイエンティストたちは、あくまで「私ではなく、データがそう言っているのだ」と弁明するだろう。では、「データ」が責任を引き受けるのか?しかしデータは人間ではないから、責任の取りようがない。非常に難しい問題である。吉田さんはさらに「ブラックボックスを通した訓育が許されるのか」「ブラックボックス化が偽装される可能性はあるか」「ビッグデータによる予測の自己循環と閉塞」などの問題提起を行った。このような議論はビッグデータをめぐってこれまでなされてきたと思われるが、「分散表象」「局所表象」という用語法は、ビッグデータの本質である「もやもや」感を学術的な議論のレベルに底上げするために有効であるように感じた。

 各発表の要約は以上だが、質疑応答で興味深いやりとりがあったので最後に紹介しておく。

Q.システムの弾きだした予測と個人の感覚との間のズレに対して違和感を表明していくことが抵抗になっていくのではないか。(例:Amazonのレコメンドが自分の好みを全く反映していない)

→吉田:そうした違和感を表明していくために「良識 bon sens」というものを涵養するのが大事だけれども、仮に生まれた時からAmazonで育ってきた子どもは違和感を表明できるのだろうか。

→質問者:子どもを生まれた時からAmazonで育てるようなことをしてはいけないというのが「良識」ではないだろうか。