科学的測定:信頼性と妥当性
信頼性は、測定デバイスの内部の一貫性と安定性の尺度です。
妥当性は、測定デバイスが主張するものを測定するかどうかを示します。
内部整合性は、メジャーに関する項目または質問が同じ構成要素を一貫して評価する度合いです。各質問は同じものを測定することを目的とする必要があります。内部の一貫性は、多くの場合、クロンバッハのアルファ(スケール上のすべての項目の超相関)を使用して測定されます。スコアが.70以上の場合、測定は許容範囲です。ただし、.80以上が望ましい。内部の一貫性を反映するスコアを検討するときは、コンテキストを考慮することも重要です。
多くの場合、安定性はテスト/再テストの信頼性によって測定されます。同じ人が同じテストを2回受け、各テストのスコアが比較されます。 2つのテストスコア間の高い相関は、テストが信頼できることを意味します。ほとんどの状況では、少なくとも.70の相関が許容可能と見なされます。ただし、これは一般的なガイドラインであり、統計的検定ではありません。
インターラーターの信頼性は、信頼性の評価に時々使用される別の信頼性係数です。異人種間の信頼性により、さまざまな裁判官または評価者(2人以上)が観察を行い、その結果を記録してから、それらの観察を比較します。評価者が信頼できる場合、合意の割合は高くなるはずです。
メジャーが有効であるかどうかを尋ねるとき、想定されていることを測定しているかどうかを尋ねます。妥当性は、統計的検定ではなく、収集されたデータに基づく判断です。有効性を判断するには、主に2つの方法があります。既存の測定値と既知のグループの違いです。
既存のメジャーテストは、新しいメジャーが既存の関連する有効なメジャーと相関しているかどうかを判断します。新しい測定値は、すでに確立されている有効な測定デバイスで記録された測定値に類似している必要があります。
既知のグループの違いは、新しいメジャーが既知のグループの違いを区別するかどうかを決定します。既知のグループの違いの図は、異なるグループに同じ測定値が与えられ、異なるスコアが期待される場合に見られます。例として、特定の政治的見解の強さを評価するテストを民主党と共和党に与えるとしたら、彼らは異なるスコアを期待するでしょう。彼らの見解は、多くの問題で大幅に異なります。これらの2つのグループのスコアが異なる場合、予想どおり、測定は有効性を示していると言えます。つまり、測定すると主張しているものの測定です。
新しい測定デバイスを設計するときは、その信頼性と有効性を考慮することが不可欠です。メジャーは信頼性があり、有効ではない場合があります。しかし、有効な指標は常に信頼できる指標です。