デジタル・ヒューマニティーズにおける横断的分類スキーム

以下はIsis Forcus読書会#11のためのレジュメです。

Isis, Focus読書会#11 "Ordering the Discipline" | Facebook

現論文へのリンクはこちら:
JSTOR: An Error Occurred Setting Your User Cookie



導入
 インディアナ哲学オントロジープロジェクト(InPhO)において、筆者らは哲学的概念や哲学者を分類し関連付けるための手法を開発している。このプロジェクトの当初の目的は、500人以上の筆者と100人以上の編集者を抱えるスタンフォード哲学百科事典(SEP)の編集を補助するという実用的なものであった。ただし、筆者らの意図はより一般的な手法の開発と、より研究志向的な目標の達成にあると強調されている。
 SEPの記事中に記述される諸概念をまとめ上げる上で最も困難な側面は、文脈や歴史上の時期によって、用語の意味に微妙な差が生じることである(同じ「機械論」であっても
デカルト哲学におけるそれと現代哲学におけるそれでは大きく意味が異なる)。あらゆる分類体系は、こうしたニュアンスの違いに敏感である必要がある。
 InPhOプロジェクトでは、「オントロジー」という用語をやや独特な用法で使用している。コンピュータサイエンスにおけるオントロジーは、主にセマンティック・ウェブへの応用を企図されている。これは、WWW上に表現されたエンティティのクラスを形式的に規定し、これに機械推論を適用することを目的とするものである。しかしながら、文脈や歴史を通じて変化する哲学や科学史上の諸概念に対して、フォーマルな定義を与えることは困難である。そこでInPhOプロジェクトでは、セマンティック・ウェブの手法を取り入れつつも、文脈に依存する解釈を人間に頼る方法を採っている。このため筆者らはInPhOにおけるオントロジーを「ダイナミック・オントロジー」と呼んでいる。ダイナミック・オントロジーが提供するのは、意味論的にフォーマルに規定されないものの、自動推論を含む機械処理をサポートする、階層的な分類スキームである。
I. 分類のための理論的根拠
 情報の分類には長所と短所があり、これは図書館司書が長らく直面してきた問題でもあある。司書は図書に対してメタデータを付与することでこれをカタログ化する。例えばDublin Core Metadata Initiative(DCMI)はこうしたメタデータ付与のために策定されたスキームである。図書の分類にはアメリカ議会図書館分類表やデューイ十進法といったスキームが用意されているが、より詳細な分類は今もって専門知識を有した図書館司書の手に委ねられている。InPhOの取り組みは、こうした専門家の仕事を代替するものではなく、むしろ意味論解析の手法によって司書や研究者に益することだと筆者は説明する。
 また、InPhOにおける概念分類の方法を透明化することで、筆者らは次の二点が可能になると述べている。第一は他分野への一般化である。筆者らの手法は哲学分野に限定されたものではないため、科学史分野への応用も可能であると示唆されている。第二は分類スキームの可能性の体系的な探求である。InPhOで利用される手法は再現可能な形式で公開されているため、代替となる分類スキームの作成が容易に可能である。
 複数のスキームの配置は難しい問題であり、コンピューターサイエンスの世界でも活発に研究が行われている。しかしながら、代替スキームをコンピューター上で体系的に変化させて生成することで、この問題は取り組みやすいものとなると述べられている。
 哲学概念を分類する上での困難について、筆者は以下の三点を挙げている。第一には、概念が高度に抽象的であり、”is_a”関係の導出が困難であること。第二に、概念によって"is_a”関係のスキームの適/不適があること。第三は、哲学の対象領域が非常に広範にわたる点である。こうした困難は専門家の力を借りることで解決できるかも知れないが、これはコストの点で許容し難い選択である。
II. 分類のための諸アプローチ
 合理的なコストで形式的・機械可読なオントロジーを構築・運用するには、自動化とクラウドソーシングという2つのアプローチがある。両者それぞれに長所・欠点があり、InPhOプロジェクトでは、アルゴリズムに基づく自動化と、フォークソノミーに基づくクラウドソーシングの両者を併用するアプローチが採られている。
 SEPの自動統計解析から得られた用語の関連性に関する仮説は、専門家によるフィードバックを受け、データベース上に登録される。このデータベースは、機械推論によって哲学概念の関係性を表現する分類のシードを生成するために利用される。テキストから分類を生成するこのパイプライン上には、修正可能なポイントがいくつも用意されており、分析対象となるテキストを別ソースに変更することや、使用される統計的手法を調整することが可能となっている。
 InPhOの目的は哲学を階層的に表現することであるが、より非構造的(非分類的)な表現の価値も筆者らは認めており、最近ではベクトル空間モデルの構築に取り組んでいる。このモデルでは個々の用語は多次元空間上のベクトルとして表現され、種々の数学的解析の対象となる。例えば用語間の意味論的類似性は、2つのベクトルがなす角の余弦として与えられる。ベクトル空間モデルにもいくつかの派生種があり、それぞれに長所と短所がある。筆者らの目標のひとつは、モデル毎の有用性を直観的に評価することから、パラメーターやソースとなるテキストの変更に対して、モデルから得られる結果がどれだけ頑健か理解することに議論のポイントを移すことである。このために、筆者らはパラメーターやソーステキストを変化させ結果を分析するためのツールを開発している(これらのツールのソースコードはgithub上で公開されている)。

IV. 意味論モデリングのさらなる応用
 意味論空間モデルは、歴史上の人物が異なるソースにおいて異なる仕方で表現されていることを明らかにすることができる。ベクトル空間モデルを利用すれば、相互のリソースの類似点と相違点を画像化し、各々のリソースが発散する度合いを統計的に計測することも可能である。筆者はカントを例に取り、SEPとIEP(インターネット哲学辞典)の両者においてカントと関連付けられる用語のネットワークを比較している。こうした意味論モデルから得られる表現は非階層的であるが、筆者の関心は、統計的手法が代替分類スキームの評価に利用できるか否かにあるという。また、画像表現による比較には限界があるため、与えられた用語に対し関連性の高い用語のリストを比較する手法が紹介されている。
V. 結論
 異なる分類スキームが互いにいかに理解するためには、複数のモデル、ソース、表現方法、比較方法を体系的に検討することが必要である。筆者らはオープンソースでソフトウェアを公開し、オープンアクセスな素材を選択したが、これは筆者らの実験結果を再現・拡張可能にし、他の研究者の研究に役立てることを意図したものである。