Last update: 16 10月 2020
はじめに
製薬会社が治験を実施すると、実施された測定の結果とともに参加患者の診療内容 (身元以外) がコンピューターのデータベースに収集されます。その後、統計分析を経て試験結果が正式に評価されます。
治験結果の分析は、次の 3 つの関心分野を対象とします。
- 人口統計情報および基本的情報
- 有効性
- 安全性
これらの分野については、以下で詳しく説明します。治験のタイプと設計は統計分析の解釈において重要な要素になります。
人口統計情報および基本的情報
試験の参加者医薬品の効果は患者集団によって大幅に異なることがあります。したがって、すべての試験患者について以下のような詳細情報を把握しておくことが重要です。
- 年齢
- 性別
- 民族的出自
- 疾患の重症度
一般に、対象となる集団と試験群との一致度が高ければ高いほど結果の妥当性が高まります。
有効性
試験薬の有効性この分析は、あらかじめ定義された “エンドポイント” に基づいて行われます。すなわち、対象となる疾患に関連する特定の測定値です。エンドポイントは、治験実施計画書 (試験実施方法の詳細が記載された文書) にあらかじめ規定されています。
一般に、エンドポイントは以下のように分類されます。
- “ハード” エンドポイント – 本質的な臨床的意義がある数値的事実の形態を取るエンドポイントです。たとえば、患者の生存期間、感染症から回復する患者の割合などになります。
- “ソフト” エンドポイント – 測定プロセスの影響を受ける可能性があるエンドポイント、または再現性の疑わしいエンドポイントです。たとえば、生活の質に関するアンケート、任意の時点における患者の気分に関する記述などになります。ソフト エンドポイントは統計分析のために数字形式に変換する必要があります。このプロセスは主観的情報に依存することが多く一貫性に欠ける可能性があるため、問題とされることもあります。
- “代替” エンドポイント – 患者の疾患経験そのものではないけれども緊密に関連する可能性があるエンドポイントです。たとえば、臨床検査の結果などになります。
一般に、ソフト エンドポイントや代替エンドポイントよりもハード エンドポイントが望ましいとされています。ソフト エンドポイントおよび代替エンドポイントは、検査対象の疾患との関連度の高さを踏まえた上で慎重に評価する必要があります。
使用するエンドポイントの選択は、検査対象の疾患の性質によって大幅に変わります。たとえば癌の場合は、生存率という形態で明確なハード エンドポイントがあります。しかし、うつ病の評価には必然的により多くのソフト エンドポイントが関わらざるを得ません。糖尿病などの疾患では血糖値などの確立された代替エンドポイントと関連性が高くなります。
安全性
医薬品の副作用治験を実施している医師が患者を診察するときは、何か困ったことがないかどうかを必ず患者に尋ねます。これらの “有害事象” に関する情報は、収集された後に分析されて検査対象医薬品との因果関係の可能性が考察されます。そのような因果関係が証明された場合は、その有害事象は “有害反応 (adverse reaction)” すなわち副作用になります。”重篤な” 有害反応、すなわち致死的な有害反応や、死亡、入院、出生異常と関連のある有害反応には特に注意が払われます。
治験のタイプ
治験は、規模、期間、デザインにかなりの幅があります。これらの要素は試験結果の解釈に大きな影響があります。
非常に有益な治験デザインに “二重盲検無作為化比較” があります。このデザインでは、一部の患者が新薬を投与されてその他の患者は代替的な治療を受けます。代替的な治療は “対照” とも呼ばれており、以下のいずれかになります。
- プラセボ – 効果のない “ダミー” の治療
- 実対照薬 – 通常、検査対象の疾患に対して確立されている治療
参加者は各試験群に無作為に割り当てられます。医師も患者も、試験の実施中には誰がどちらの治療を受けているかがわからないように設定されます。このような試験の設定は “二重盲検” と呼ばれています。二重盲検によって、結果の中にバイアスの入る可能性が低減されます。
このような試験では、新しい医薬品を投与される群と対照治療を受ける群との差異の観点で結果が示されます。
- プラセボと比較する場合は、その差異は新薬の実質効果の指標になります。
- 実対照薬と比較する場合は、その差異は新薬と現在の診療との差異を示します。
どちらの場合でも、通常、以下の 2 つの差異が報告されます。
- サイズ:特定の試験で記録された実際の差異は “95% 信頼区間” と併せる形でしばしば報告されます。これは、その集団に対して真の差異があることを 95% 確信できるという範囲になります。統計的有意性があっても臨床的妥当性がない場合もあります。一般的には、この差異が大きければ大きいほど臨床的妥当性のある可能性が高くなります (生存を 1 年延ばすことは 1 日延ばすことよりも臨床的意味があります)。
- 統計的有意性:治療に対する反応は個人によってばらつきがあるため、治験で観察される群同士の差異が偶然によって発生するリスクは常に存在します。たとえば、偶然、もともと反応しやすい患者がすべて一方の群に割り付けられ、反応しにくい患者がもう一方の群に割り付けられた場合です。統計学者は特定の治験においてそのシナリオが発生する確率を計算することができ、その結果を “p 値” として示します。
p 値 0.05 は、差異が偶然に発生した可能性が 5%、すなわち 20 回に 1 回であることを意味します。慣例的に、これは結果を “統計的に有意である” と認める閾値として理解されています。この意味で使用される “有意である (significant)” という用語は、その結果の医学的な重要性とは無関係であることを理解することが重要です。偶然の結果である可能性が低いことを再確認しているだけにすぎません。たとえば、十分に大規模な試験において 6 分間での歩行距離が 1 メートル延びることが統計的に有意である (すなわち偶然には起こりにくい) という結果になることがあるかもしれませんが、それは、心不全患者やその主治医によって臨床的な価値を認められたということではありません。
治験で 2 番目に重要な群は長期的な安全性の検査にしばしば実施されるもので、”オープンラベル” 試験の形態を取ります。これらの試験には対照群がありません。すべての参加者が新しい医薬品によって治療され、その体験が記録されます。偶然としても実際の治療効果としても、群同士で差異が生じることはありません。したがって、有意性検定を行う余地はありません。この欠点を補うため、オープンラベル試験はしばしば長期間 (場合によっては数年間) にわたって実施され、多数 (最大数千) の患者が関与します。したがって、これらの試験では希少な副作用や発症に時間のかかる副作用を容易に検出できるようになります。
このような試験の結果は、各種の有害事象およびその発生頻度を一覧にしたわかりやすい表で示されます。