公認心理師試験対策：(5)心理学における研究

タイトル：公認心理師試験対策：(5)心理学における研究

はじめに

本記事は、2019年に実施される第2回公認心理師資格試験の自主学習のために、
ブループリントの項目順にキーワードとその概要を並べていきます。

ブループリントのPDFファイル

今回は5番目、「心理学における研究」についてまとめていきます。

（注意：具体的な内容に入り、分量がかなり増えてしまいました。次からは分割してアップしようかな・・・）

心理学における研究

前回の記事でもいくつか紹介しましたが、心理学は他分野に比べて歴史は浅いながらも、様々な研究で発展してきました。
また、現在は、心理師は実践者であるとともに、科学者あるいは研究者でもあることが求められています。

まずは心理学の研究がどう進められるのかを整理し、続けて心理学研究のコアな部分である心理統計についてまとめていきます。

心理学における実証的研究法

心理学的研究におけるデータ収集方法のほとんどは、人に協力をお願いする方法です。
一般の方からの協力を得ることもあり、協力者の尊厳や人権に配慮した計画を立て、推進しなければなりません。

本節では、どのように人の尊厳や権利を守って研究を進めていくのか、そのルールを示した研究倫理について整理し、続けて具体的なデータ収集法についてまとめます。

心理学における研究倫理

心理学研究では、ヘルシンキ宣言に準じて研究倫理が考えられています。
ヘルシンキ宣言は、ナチス・ドイツでの非倫理的な人体実験とその結果から生まれたニュルンベルク綱領を受けての医学会からの対応です（Wikipedia）。

その背景からもわかるように、人の人権や尊厳を守った研究をしようという趣旨になっています。
具体的に、ヘルシンキ宣言と併せて覚えるべきキーワードとして、「インフォームド・コンセント」が挙げられます。
インフォームド・コンセントとは、十分に説明を受けた上で合意することです。つまり、協力者は十分な説明を受ける権利も、その説明を受けて同意する権利も持って研究に参加することができます。

人を対象とする医学系研究に関する倫理指針

この指針は、2015年2月に制定されました。
「医学系研究」とありますが、心理学研究においてもこの指針に則って研究計画書を作成し、倫理委員会は審査するようになっています。

ガイダンスからの抜粋で、以下に目的と基本方針をまとめます。

目的

この指針は、人を対象とする医学系研究に携わる全ての関係者が遵守すべき事項を定め
ることにより、人間の尊厳及び人権が守られ、研究の適正な推進が図られるようにするこ
とを目的とする。全ての関係者は、次に掲げる事項を基本方針としてこの指針を遵守し、
研究を進めなければならない。

基本方針

社会的及び学術的な意義を有する研究の実施
研究分野の特性に応じた科学的合理性の確保
研究対象者への負担並びに予測されるリスク及び利益の総合的評価
独立かつ公正な立場に立った倫理審査委員会による審査
事前の十分な説明及び研究対象者の自由意思による同意
社会的に弱い立場にある者への特別な配慮
個人情報等の保護
研究の質及び透明性の確保

各種研究手法

以下に、各種研究手法の概要をならべました。

項目	内容
実験法	原因（独立変数）を操作し、結果（従属変数）を比較することで因果関係を明らかにしようとする方法。
調査法	質問紙（アンケート）を一斉に配布し、協力者がそれに回答することでデータを得る方法。
観察法	対象の行動を注意深く見ることで対象を理解しようとする方法。対象のそのままの状態を観察する自然観察法と、何らか条件を統制して観察する実験的観察法などがある。
検査法	心理検査を用いたデータ収集法。知能検査、投影法、作業検査などがある。
面接法	インタビューによりデータを収集する方法。構造化面接、半構造化面接、非構造化面接があり、構造化されているほど決まった質問で、決まった流れで手続きを進める。

実践的研究

臨床心理学における事例研究にあたるのでしょうか。
事例研究では、カウンセリングの経過を学術的に評価します。

カウンセリングの経過が主なデータになりますので、データはより慎重に扱うことになります。
多くの場合は、個人名はもちろんのこと、住んでいた地域や利用した施設などはA市、Bセンターなどと記号化することが多く、また職業も「会社員」や「自営業」などぼかした表現が使われることが多いです。

心理学で用いられる統計手法

各種統計手法

各種統計手法の概要を以下の表にまとめました。
詳細は、「統計的仮説検定」で後述します。

項目	概要
分散分析	複数条件の平均の差に意味があるかをテストする手法。
因子分析	質問紙の質問項目を構成概念（因子）を抽出するための手法。質問項目のグループ分けと考えて良いと思う。
重回帰分析	説明変数（独立変数）が複数ある回帰分析。目的変数（従属変数）に対する複数の目的変数それぞれによる影響を確認する。
構造方程式モデリング	観測変数の因果分析であるパス解析と潜在変数を測定する確認的因子分析を融合した方法。
多変量解析	重回帰分析を含んだ解析手法の総称。重回帰分析は量的変数同士の解析だが、質的変数や二値変数を使用した解析（判別分析やロジスティック回帰分析）などがある。
メタ分析	同じ研究テーマに関する様々な研究結果を統合する方法。効果量を算出することで統合することができる。

テスト理論

信頼性（再現性）に関わる理論です。
観測されるテスト得点は真値と誤差の和によって表現できると考えます。
また、テスト得点の分散は、真値の分散と誤差の分散との和と考えられ、誤差の分散が小さいほど精度の高いテストであると評価できます。
この精度が信頼性になります。

信頼性は、同じテストを後日もう一度行って回答のズレを評価する再テスト法や、項目間の内的整合性を反映するアルファ係数を算出して評価します。

統計に関する基礎知識

尺度水準

尺度水準は、以下4段階あります。

水準	内容	例
名義尺度	個々に番号が振られていることに意味がある尺度。その数字の大きさには意味がない。	背番号
順序尺度	数値の大小関係には意味があるが、どれだけ大きいか（小さいか）には意味がない尺度。	順位
間隔尺度	数値の差がどれだけ大きいかに意味を持つが、0（基準点）が任意で決めれれたものであるため、積算、除算は意味をなさない尺度。	摂氏
比例尺度	0（基準点）が物理的に意味のある点であり、数値の倍率にも意味がある尺度。	華氏

度数分布

中高生のとき、何点台に何人いるか、といった分布を結果として返されたこともあるのではないでしょうか。
この何点～何点に何人いるか、といったデータのまとめ方を度数分布といいます。
この得点の区間は任意で決められ、幅が細かいほど細かい度数分布表が得られます。
また、度数分布を可視化する方法として、ヒストグラム、幹葉表現や箱ひげ図があります。

代表値と散布度

代表値には、最頻値、中央値、平均値があります。

それぞれを一言でざっくりいうと、下表のようになります。

項目	内容
最頻値	最も多く出現した値
中央値	低い順（高い順）に並べたときに、ちょうど真ん中に来る値
平均値	得点の和を算出し、その和をデータ数で割った値

上述した尺度水準と併せて考えると、尺度水準によって使用できる代表値が以下のように変わります。

尺度水準	最頻値	中央値	平均値
名義尺度	○
順序尺度	○	○
間隔尺度	○	○	○
比例尺度	○	○	○

散布度は、主に分散、標準偏差、四分位偏差が挙げられます。

分散 $\sigma$ は以下の通りです。
$\sigma = \frac{\sum_{n}^{N}(x_n - \bar{X})^2}{N}$
ただし、N=データ数、x=得点、 $\bar{X}$ =データ平均です。
要約すると、各得点と平均との差分（偏差）の二乗の総和を取り、データ数で割った値です。

標準偏差は、分散の平方根です。
平方根を取る理由として、分散では偏差を二乗しているため、元の得点のスケールに合わせるような意図があります。

四分位偏差は、順序尺度以上で使用できる散布度です。
話を単純にするために、例から説明します。
101個のデータを低い得点から順に並べたとき、25番目が第一四分位、51番目が第二四分位（＝中央値）、75番目が第三四分位です。
つまり、四分位とは、データを順に並べた上で4分割し、その分割点にあたる値を指します。

相関係数

2つの変数の直線的関係を評価する指標です。
例えば、身長と体重との関係を考えたとき、多くの場合は、身長が高いほど体重は重くなりやすいです。
このように一方の値が増大すると他方の値も増大しやすい関係を「正の相関」といいます。
逆に、気温とおでんの売上との関係を考えた場合、多くの場合は気温の低下に伴っておでんの売上は上がっているかと思います。
このように、一方の値が増大すると他方の値は減少しやすい関係を「負の相関」といいます。

相関係数は、どれだけ相関が強いかを表す係数で、値域は-1.0～1.0です。
0が2つの変数間に全く関係がない（無相関）ことを示し、1.0に近いほど強い正の相関、-1.0に近いほど強い負の相関を示します。
相関係数の強さの評価は分野によります。
心理学では、相関係数の絶対値が0.2以下で「ほとんど相関なし」、0.2～0.4で「弱い相関」、0.4～0.7で「中程度の相関」、0.7以上で「強い相関」と評価されます。

相関係数（ピアソンの積率相関係数）は、以下のように求めます。

$r = \frac{\sum_{n}^{N}(x - \bar{X})(y - \bar{Y})}{((\sum_{n}^{N}(x - \bar{X})^2)(\sum_{n}^{N}(y - \bar{Y})))^1/2}$

上式の分子は共分散といいます。共分散を、標準偏差の積で割ることで求められます。

なお、ノンパラメトリックな相関係数の算出方法として、「スピアマンの順位相関係数」や「ケンドールの順位相関係数」もあります。

相関係数を考える上で注意すべき点が2点あります。
第一に、相関係数は、2変数の直線的関係を検討するだけで、因果関係や前後関係までは言及できません。
つまり、相関係数だけで「身長が高いから体重が重い」「気温が低いからおでんが売れる」といった結論には至れないということです。
第二に、相関係数は順序尺度です。
上述の尺度水準の通り、値の大小関係までは議論できても、その差には意味はありません。

統計的仮説検定

心理学の研究において、絶対に外せないのが統計的仮説検定です。
ベイズ統計など、別の方法で推定することも増えてきましたが、現在でも仮説検定は使われ続けています。

なぜ統計的仮説検定が必要なのかを説明するために、まず調査形式から説明します。
調査には、全数調査と標本調査があります。

全数調査は、国勢調査のように、対象全員からデータを得るような調査です。
一方で、標本調査は、対象とする集団の一部からデータを得る調査です。
標本調査は、例えば国内の20代男性の傾向を知りたいと言っても、20代男性全員からデータを得ることができないといったケースで実施されます。
心理学の研究は、（おそらくほぼ全部が）標本調査です。
そして、標本の抽出はランダムに行われます（ランダムサンプリング）。
（とはいっても、データの収集場所が大学内であったり、ある施設であったりと、データの収集環境に依存して厳密にランダムではないといった指摘もあります。）

（ランダムサンプリングな）標本調査が完了したところで、次に問題になるのが、その調査で得られたデータでわかった傾向が、本来対象としている集団（母集団）にあてはまるのか、といった問題です。
考え方としては、同じように標本調査をした場合に、今回得られた結果とは逆の結果が得られることを仮定して（帰無仮説を立てて）、その仮説が採択される確率を算出します。
この確率がp値です。

心理学では、このp値の閾値を0.05と設定し、p値が0.05より低い値の場合に帰無仮説を棄却し、有意な結果であると結論づけます。
もちろん、この閾値の設定はあくまでそう決めているだけであって、5%の確率で得られた結果とは逆の結果が得られる（＝第一種の過誤）危険性をはらみます。
なお、この閾値を「有意水準」と呼びます。

以上の前提を踏まえて、心理学でよく用いられる検定を順に考えていきます。

1. t検定
2つの値の差に意味があるのかどうかを検定します。
標本で得られたデータを2つのグループに分け、それぞれ得点を算出したとき、得点間に差が見られたとします。
このとき、同じ母集団の他の標本でも見られる、無視できないような差なのか、たまたま起きた差なのかを確認するために実施します。
帰無仮説は、「2つの値に差は０である」と設定します。
得られたデータから、t値を算出し、t値からp値を算出します。
ざっくりいうと、p値を算出することで、算出したt値がt分布のどの位置にいるのか評価することになります。
p値が有意水準（0.05）以下であれば、今回の標本で見られた差は無視できない「有意な」差であると判断されます。

2.　分散分析
観測データの変動が、要因による効果で起きているのか、誤差によるものかを検定します。
心理統計においては、よく3群以上のグループ間の差に意味があるのかどうかを検定する用途で選択される手法ですが、「分散分析は3群以上の比較をする分析」と説明するとおそらく誤りだと思います。
実験を計画するとき、ある観測変数に影響を与えると思われる独立変数を操作するという話を上述しました。
「操作する」とは、例えば「新薬を投与する」グループと「従来の薬を投与する」グループと「ビタミン剤を投与する」グループにわけるようなイメージです。
この場合、観測変数の変動が、「投与された薬の違い」の効果によるものか、ただの誤差なのかを検定することになり、ここで分散分析を使います。
「投与された薬の違い」によって観測変数が有意に変動することがわかったら、次はグループ間の比較を行います。
このときの3グループ間の比較を「多重比較」といいます。
先程、p値での判断には、判断と逆の結果を引き起こす危険性を常にはらむという話をしました。
3グループの多重比較では、以下の組み合わせで3回の比較を行います

新薬 vs 従来薬
新薬 vs ビタミン剤
従来役 vs ビタミン剤

一つのサンプルで何回も検定を行うため、p値による誤った判断を引き起こすリスクがそれだけ高まってしまいます。
そこで、多重比較では、有意水準を低くする（判断する基準を辛くする）ことでリスクを抑えます。
1要因での多重比較は、Tukeyの多重比較がおそらく最もよく使われます。

今、「1要因での」と述べたように、要因を複数設定することも可能です。
（ただし、要因を複数設定することで条件が複雑になるため、多くても3要因まで）
例えば、先程の例に、性別による効果も計画に含まれていたとします。
このとき、2要因（3水準×2水準）で分散分析を行うことになります。
2要因以上での分散分析は、「投与された薬の違い」の効果と、「性別の違い」の効果とその両方がかけあわさった効果の3つにいみがあるかどうかを検定します。
このかけあわさった効果を「交互作用」と呼びます。
交互作用が有意であった場合の多重比較は、「新薬を投与したグループの男女の差」といった要領で、ある要因の水準における他方の水準間の比較を行います。

3.　（単 / 重）回帰分析
目的変数（従属変数）に対する説明変数（独立変数）による影響を検討する分析手法です。
相関分析では、2つの変数間の直線的な関係性の強さを検討するに過ぎず、前後関係や因果関係までは言及できないということを上述しました。
この分析で、説明変数による目的変数への影響関係があるかどうかを判断することができます。
説明変数が1つのときの回帰分析を単回帰分析、2つ以上のときの回帰分析を重回帰分析といいます。
回帰分析は、データを $Y = f(x)$ に当てはめることを言います。
線形回帰分析では、 $Y = aX + b$ に当てはめようとします。
当てはめる際には、最小二乗法というアルゴリズムで直線とデータの座標との誤差を最小化します。
直線の当てはめができると、上式のa(傾き)とb(切片)が求まります。
関心があるのは、この傾きに意味があるのかどうかです。
傾きに意味があるのかどうかを確認するために、「a(傾き)はゼロである」という帰無仮説を設定し、帰無仮説が真になる確率（p値）を算出します。
これまでと同様、有意水準（0.05）を下回ると、傾きに意味があると判断されます。

4.　多変量データ解析
回帰分析は、目的変数が連続値であることが前提となっていました。
目的変数が離散値であるとき、入力xに対してどの値に割り当てられるかという分類問題に変わります。
例えば、身長という入力から男女を分類するための予測モデルを考えたいとき、 $Y = f(x)$ のxが身長、Yが性別になります。
目的変数が二値変数の場合は、ロジスティック回帰分析が用いられます。
以下の構造方程式モデリング、マルチレベル回帰分析、因子分析も多変量データ解析の一種です。
他にも、クラスター分析や主成分分析、判別分析などがあります。

5.　構造方程式モデリング
共分散構造分析やSEMとも言います。
変数間の関係を先に記述し、それがデータと当てはまっているかを検定します。
データとの当てはまりを検定する際は、カイ二乗検定を行います。
注意点として、カイ二乗検定の帰無仮説は「データから当てはめたモデルとと記述したモデルとの誤差が0である」と設定されています。
つまり、p値が有意水準（0.05）を下回ると、データと明らかに違うモデルを記述していることになり、記述したモデルは実態に沿わないと判断されます。
さらに、適合度をみることで、細かくデータとの当てはまりを評価します。

記述したモデルの中に、実際には測定していない潜在変数を含めることができます。
（観測変数のみでモデルを記述し、当てはまりを確認する分析を「パス解析」といいます）
この性質を利用し、後述の因子分析で想定された因子構造を構造方程式モデリングでどれだけデータと当てはまりが良いかを評価することができます。
構造方程式モデリングを用いた因子分析を「確認的因子分析」といいます。

6.　マルチレベル回帰分析
説明変数に複数の階層があることをモデルに含めて当てはめる分析手法です。
例えば、テストの点数という目的変数があり、そこに自宅で宿題にかける時間を説明変数にして当てはめたいとします。
これは感覚的な話でなにも根拠はありませんが、学校により（あるいはクラスごとでも）教師や学校の方針により宿題の出し方は変わります。
そこで、宿題にかける時間によるテストの点数への影響は、学校やクラスごとに変わるだろうということを前提に、グループ（学校、クラス）ごとにモデルを予測します。
グループごとにモデルを予測することで、とくにどのような属性のグループで影響関係が強いのかといった細やかな分析を行うことができます。

7.　ノンパラメトリック検定
ここまでの分析手法は、パラメトリック検定と呼ばれます。
パラメトリック検定とは、母集団が正規分布に従うと仮定して行われる検定です。
データを収集した後、真っ先に確認すべきなのは、データが正規分布に従っていると仮定できるかどうかの検定（正規性の検定）です。
ここで、データの正規性が確認されなかった場合、正規分布を仮定した検定を行うのは不適切です。
そこで、母集団が特定の分布に従うと仮定せずに検定を行うノンパラメトリック検定が選択されます。
以下に代表的な検定を挙げますが、ノンパラメトリック検定は種類がかなりたくさんあります。

検定	概要
マンホイットニーのU検定	2群の差の検定
ウィルコクソンの順位和検定	対応する2データの差の検定

8.　因子分析
観測変数のグループ分けを行う分析です。
主に、質問紙調査で質問した項目のグループ分けのために使用されることが多いです。
観測変数を因子負荷量、共通因子、独自因子で予測する多変量解析の一種です。

（補足）効果量と検定力

ここで、心理統計を扱う上で気をつけてほしいことがあります。
上述したように、有意水準とは、仰々しくそう呼んでいますが、ただ人が決めた閾値です。
p値のみで判断したとき、有意な結果だと判断しても、その逆の現象が起こる可能性が少なくとも5%もあるということです。
有意でないと判断しても、実は有意な結果だったということもあるわけです。
悪意のある研究者がもしいたとして、業績のために有意な結果が出るまで実験を繰り返し、データを増やすなんてこともできるのです。
そして、p値はあくまで「意味がある / ない」を判断する材料なだけであって、p値の小ささそのものには意味がありません。

そこで、仮説検定の文脈において以下2点の対策が取られています。

効果量の報告
検定力分析によるサンプルサイズ設計

効果量とは、帰無仮説が正しくない程度を量的に表す指標です。
対象とする検定により算出方法はことなりますが、標準化された値のため、別の標本で取ったほかの研究との対比もできます。
この特性を生かして、メタ分析によって心理療法の効果研究が行われています。

検定力分析とは、検定力、有意水準、サンプルサイズ、効果量の4つのパラメータから正しく帰無仮説を棄却する確率を評価します。
検定力とは、帰無仮説が偽のとき、正しく帰無仮説を棄却する確率です。
検定力分析には、事前分析と事後分析があります。
使用する4つのパラメータは互いに影響しあっており、4のうち3つが決まると残りの一つが決まります。
したがって、期待する検定力、効果量、そして有意水準を入力してやることで、サンプルサイズが決まります。
事前にこの計算を行っておくことで、サンプルサイズが過剰に小さい、あるいは大きいという事態を避けます。
実験終了後、データを解析するときには事後分析を行います。
このときは、サンプルサイズ、効果量、有意水準を入力してやることで検定力が求まります。
この検定力を評価することで、帰無仮説を正しく棄却できているかどうかを評価します。

今回は以上です。
記事のボリュームも考えないと・・・

参考文献

一般財団法人　日本心理研修センター監修『公認心理師　現任者講習会テキスト　2018年版』金剛出版
丹野ほか『臨床心理学』有斐閣
大久保ほか『伝えるための心理統計　効果量・信頼区間・検定力』

Muji Blog

いろんなトピックを備忘録的に発信していきます。トピック例：{画像処理、信号処理、心理学}