ソーシャルメディア研究における欠陥の発見

モントリオールのマギル大学とピッツバーグのカーネギーメロン大学のコンピューター科学者によると、研究者は巨大なソーシャルメディアデータセットを扱う際の深刻な落とし穴に注意する必要があります。

欠陥のある結果は大きな影響を与える可能性があります。毎年数千の研究論文がソーシャルメディアから収集されたデータに基づいています。

「これらの論文の多くは、一般市民や業界や政府における決定や投資を知らせ、正当化するために使用されています」と、マギルコンピュータサイエンススクールの助教授であるDerek Ruths博士は述べています。

行動科学者にとって、ソーシャルメディアの成長は、人間の行動に関する膨大な量の情報を収集して分析する前例のない機会のようです。

多くの科学者は、そのような熟したデータセットが、これまでに想像されなかったレベルで人間の行動を予測するのに役立つと信じています。近年、研究は夏の大ヒットから株式市場の変動まですべてを予測する能力を主張しています。

しかし、ジャーナルに掲載された記事では理科、カーネギーメロンのInstitute for Software ResearchのRuthsとDr.JürgenPfefferは、ソーシャルメディアデータセットの使用に関連するいくつかの問題と、それらに対処するための戦略を強調しています。課題の中には：

ソーシャルメディアプラットフォームが異なれば、利用するユーザーも異なります。たとえば、Pinterestは25〜34歳の女性が多く、研究者がこれらの集団が生み出す歪んだ画像を修正することはめったにありません。

ソーシャルメディアの研究で使用される公開されているデータフィードは、プラットフォーム全体のデータの正確な表現を常に提供するとは限りません。研究者は通常、ソーシャルメディアプロバイダーがデータストリームをフィルタリングするタイミングと方法について、通常は暗闇にいます。

ソーシャルメディアプラットフォームの設計は、ユーザーの行動、したがって測定できる行動を決定付ける可能性があります。たとえばFacebookでは、「嫌い」ボタンがないため、コンテンツへの否定的な反応を肯定的な「高評価」よりも検出することが難しくなっています。

ソーシャルメディアの通常のユーザーになりすました大量のスパマーやボットは、人間の行動の多くの測定や予測に誤って組み込まれます。

研究者は、分類しやすいユーザー、トピック、イベントのグループの結果を報告することが多く、新しい方法は実際よりも正確に見えるようになります。たとえば、（政治的にアクティブなユーザーに焦点を当てた）調査が90％の正確さを主張していたとしても、Twitterユーザーの政治的志向を推測する取り組みは、典型的なユーザーのわずか65％の正確さを達成します。ツイッターユーザーは、典型的なユーザーではわずか65％の精度を達成しています。ただし、政治的にアクティブなユーザーに焦点を当てた調査では90％の精度を主張しています。

調査官は、問題の多くは疫学、統計学、機械学習などの他の分野にも共通していると言います。

「これらすべての問題に共通するのは、ソーシャルメディアデータを扱うときに研究者が実際に何を分析しているのかをより鋭敏に認識する必要があることです」とRuths氏は言います。

社会科学者は、以前にこの種の課題に対処するために彼らの技術と基準を磨きました。

「1948年の悪名高い「デューイ敗北トルーマン」の見出しは、一般住民のトルーマン支持者を過少サンプリングした電話調査から生じたものです」とルースは述べています。

「投票の慣行を永久に信用するのではなく、その明白なエラーが今日のより高度な技術、より高い基準、およびより正確な投票につながりました。今、私たちは同様の技術的変曲点に着手しています。私たちが直面する問題に取り組むことで、ソーシャルメディアに基づく研究によって約束された善の大きな可能性を実現することができます。」

ソース：マギル大学