エプスタイン博士、政治バイアス、およびGoogle検索結果

ロバートエプスタイン博士と彼の主張による、95人の参加者を対象とした1件の調査に基づくGoogleの意図は、2016年の米国大統領選挙前に示された結果に意図的にバイアスをかけたと少し混乱しています。したがって、おそらく選挙結果自体に影響を与えた。

それは 巨大 主張する。エプスタイン博士のような尊敬される研究者がそれを裏付ける科学的データを持っていることを望んでいるだろう。残念ながら、私には見えません。

科学は、科学者が自分自身のバイアスを認め、説明するまで、客観的です。科学は、事前に設定された議題やスコアを確定する試みに基づいていません。エプスタイン博士が見かけの魔女狩りで自分のバイアスを抑え、「バイアスされた」検索結果を提供するためにGoogleを倒したとは確信していません。

検索エンジンは常に偏っている

Googleは常に偏った検索結果を提供してきました。これが分からないなら 持っている どの検索エンジンにも当てはまる場合は、検索エンジンの仕組みについて簡単に復習する必要があるかもしれません。

公平な検索結果などはありません。すべての検索エンジンは、独自の企業秘密アルゴリズムを使用して、検索エンジン会社が「最良の」結果をもたらすと信じていることを確認します。 「ベスト」は、1990年代初頭にオンラインで検索エンジンが開始されて以来、常に主観的な用語でした。 「このWebサイトは明らかに最良の結果であるため、この検索クエリでは常に最初にこのWebサイトを表示する」というWebサイトの単一の客観的なランキングはありません。

そして、何を推測するか—人々はそれを愛しています! Googleが検索エンジンの山の上にいるのはそのためです。確かに、ほとんどの人にとって最も関連性の高い結果を提供しているからです。 Googleがそのような関連する結果の提供をやめた瞬間、新しい検索エンジンがその代わりをすることができます。 (誰もがAlta Vista、Excite、あるいはYahooさえ覚えていますか?[そしていいえ、Yahooはもう検索を行いません—その結果はBingによって提供されます。])

検索エンジンの結果のバイアスはどのように見えますか?

多くの人には知られていないが、検索エンジンは、2人の異なる人が尋ねた同じクエリに対して正確に同じ結果を表示することはない。 Googleを含むほとんどの検索エンジンは、複雑なパーソナライズ要素と心理プロファイルを使用して、考えられる結果をさらにソートして表示します あなたに最も関係がある.

実際、これは、「うつ病の症状」を検索すると、まったく同じ用語で検索した場合とは異なる結果セットが返される可能性があることを意味します。方法論でこれを注意深く制御しないと、結果は無意味で汚染されます。

Epstein&Robertson(2015)は一連の実験室(実世界ではない)の実験で発見され、検索エンジンの結果ページを人工的に操作すると、被験者の投票者の好みに短時間で影響を与える可能性があります。実際の検索エンジンページは調査していません。また、最新の検索エンジン結果ページのレイアウトと構成は無視されました。実際の検索結果ページでは、オーガニック検索結果の前に、ページの上部に複数の広告(誰でも購入できる)が表示されます。

これらの研究者の結果は、検索エンジン最適化(SEO)の専門家が教えてくれること、つまり検索エンジンの結果ページでの位置付けを反映しているという点で驚くべきことではありません。 Webサイトのトラフィックが#1、#2、または#3の場合は、#9の場合よりも多く、さらに悪い場合は、結果の2ページ目に到達します。

2番目の実験室実験では、同じ研究者が(ここでも、Googleではなく完全に偽の検索エンジンを使用して)作成した効果(検索エンジン操作効果(SEME))を抑制できる(ユーザーにタイムリーなアラートを表示して) )。

Googleがヒラリーの勝利を助けましたか?

2017年、エプスタインとロバートソンはもはや明らかなことを実証するのに満足していませんでした。ランキングポジションは検索エンジンの結果ページで重要であることを示しています。彼らはさらに一歩踏み込んで、2016年に95人のアメリカ人(次の大統領選挙で「未定」と特定されたのはそのうち21人だけ)と彼らの調査習慣を調査しました。

エプスタインとロバートソンは、彼ら自身のウェブサイトにのみ公開された白書で、並外れた主張をしています。

[…W] eは、2016年5月から11月の間に、幅広い選挙関連の検索用語に対応して表示された検索結果が、平均して、10件すべての検索結果でクリントン夫人の支持に偏っていたことを発見しました。

査読付きのジャーナル研究ではなく「ホワイトペーパー」として公開され、これは多くの赤信号を引き起こしました。1

調査で説明された方法論の方法はほとんどありませんでした。これには、検索結果のパーソナライゼーションを制限するために何が行われたか(その独立変数を制御したいため)、実際に使用した検索語句に関する情報は含まれません。実際、これらの研究者が発表した以前の2つの調査を読んでも、収益化戦略、採用する毎週のアルゴリズムの変更、検索結果のパーソナライゼーションに関して検索エンジンがどのように機能するかを認識していることさえ明らかではありません。

私の意見では、研究者の努力にも明らかなだらしさがいくつかあります。他の期間と比較して、彼らが研究で調査するために使用した特定の25日間の期間に対して与えられた根拠はありません。そして、実際には、 彼らが収集したデータポイントの大半。選挙前の3週間のみに焦点を当てるため、研究者たちは7か月分の研究データを無視しました。2

また、Gmail.comベースのデータに異常があるため、そのデータをすべて破棄することを事後的に決定しました。これらの異常は偶然にもそのようなバイアスを示さなかったが、それらは一連の「ボット」に起因するか、それを待つ-Google側の意図的な妨害のいずれかに起因した。

Gmailを使用する正当なユーザーの数は非常に少ないため、Gmail.comから派生したすべてのデータを破棄するこれらの根拠は、よくても疑わしいようです。私の意見では、これは恐ろしい研究上の決定でしたが、偶然にも研究者がデータに重要性を見出すことを保証するものでした。

しかし、これが本当のキッカーです。

2016年2月以降に発表された記事で、このレポートで紹介された数学から推定すると、PNAS研究の主執筆者は、Googleの検索結果でのクリントン派の偏見により、少なくとも260万票がクリントン派にシフトすると予測しました。

ホワイトペーパーには数学はありません。そこ 一連の説明的な統計ですが、それらの統計は、研究者が実際に使用した結論に到達するために実際に使用した手順またはモデル化についてはほとんど話していません。

研究者の「2016年の大統領選挙における系統的バイアスの証拠?」 95人のアメリカ人に基づいたモデリングデータの小さなサンプリング(そのデータを随時破棄したGmail.comユーザーを除く)。

要するに、私の意見では、これはまさにこの世の中で「証明」のために合格する一種の粗雑で、怪しげで、恐ろしく設計された研究です。なぜ研究者はそのような政治的に偏見のある研究を実施し、実際の直接的な証拠がないという結論を導き出すのでしょうか?3

たぶん、斧を粉砕するのですか?

研究者は人間です。そして人間は時々粉砕する斧を持っています。エプスタインの可能な特定の軸の1つを見つけるために遠くに行く必要はありません。

2012年以前は、エプスタインは検索エンジンやその機能にほとんど関心を示していませんでした。彼は、心理学、人間関係、メンタルヘルスのさまざまなトピックについて出版し、主流のWebサイトにそれらについて書いています。

その後、2012年の初め、エプスタインの個人Webサイトは、ユーザーがGoogleから自分のサイトにアクセスしようとしたときに表示されるマルウェア警告の受信者でした。 Googleはこれらのアラートを表示して、悪意のある可能性のあるWebサイトからユーザーを遠ざけます。

しかし、この事件は何らかの形でエプスタインの肌に隠れたようです。2012年の秋に突然Googleを規制する必要性について複数の記事を書いているためです。これは、以前に検索エンジンについて一言も書いたことがない研究者からのものです。タイミングが面白いと思います。

つまり、エプスタインは過去7年間、連邦政府によるGoogleの規制を支持してきました。彼女または彼の信念をサポートするための研究を設計する架空の研究者を想像することはそれほど難しくありません。

検索エンジンバイアスのアップショット

検索エンジンは常にバイアスがかけられており、ユーザーを情報やエンターテインメントに導くための主観的なツールであるため、常にバイアスがかかります。大きな政府が私の検索結果の監視を開始したい分は、そのような政府のフィルタリングが行われていない検索エンジンに目を向けた分です。

また、米国の政治における架空の干渉と実際の干渉の関係を考えるのにも役立ちます。エプスタインは、Googleが政治的検索結果を操作して選出を希望する候補者を支持していることをほのめかしているが、我々はFacebookがそのプラットフォーム上で数百万ドルの偽の広告を購入するロシアが後援する組織を通じて2016年の大統領選挙を操作しているという実際の証拠を持っている。

興味深いことに、エプスタインはそのことにあまり関心を持っていないようです。多分それはGoogleがかつてそうしたようにFacebookが彼を不当に扱ったことがないためかもしれない。

詳細については

政治的事実:Googleが選挙結果を操作することについてのドナルドトランプ氏の誤り

参考文献

エプスタインとロバートソン。 (2017)。検索エンジン操作効果(SEME)の抑制。手続きACM Hum.-Comput。 Interact。、1(2)、42。

エプスタインとロバートソン。 (2017)。 2016年の大統領選挙に関連する体系的なバイアスの証拠を持つ、検索ランキングのバイアスを検出する方法。エプスタインの組織であるAIBRTが発行したホワイトペーパー。

エプスタインとロバートソン。 (2015)。検索エンジン操作効果(SEME)と選挙結果への可能な影響。 PNAS、10.1073 / pnas.1419828112

脚注:

  1. 査読付きの研究がないことについて尋ねられたとき、エプスタインは私に返信しました、「私は緊急性と量の両方の問題も抱えています:私はオンラインの影響の新しい形の非常に多くの異なる研究を完了または進行中です(私は勉強しています現在、7つの異なるタイプの影響— SEMEと他の6つ)に残っている少しの時間を費やすのではなく、会議のペーパー、ホワイトペーパー、およびある時点では本の形で私の調査結果を要約することにしました。学術出版のプロセスがひどく遅くなる。別の新しい形のオンラインの影響に出くわしたとき、それを理解して定量化するには、少なくとも1〜2年かかります。 (私が知っている影響力の新しい形の6ダースで実験を開始することもできませんでした。)そのプロセスにさらに1年または2年を追加してジャーナルに発表することは、私の年齢とこれらの発見がどれほど重要である可能性があるかを考えると無作為に思えます人類のために。」 [↩]
  2. 研究者は、これは彼らが言った問題が募集問題と彼らの手順を洗練しているためであったと主張しました。どちらが問題を引き起こすのか—ほとんどの研究者が行っていたであろうように、彼らの手順がパイロット研究で最初に洗練されるべきではなかったか? [↩]
  3. または、知識を深めたい場合は、25日間にわたる95人のユーザーの検索(Gmail.comの件名の一部を差し引いたもの)の小さなサンプルに基づく証拠を最小限に抑えます。 [↩]

!-- GDPR -->