治験の統括報告書の構成と内容に関するガイドライン
平成8年5月1日 薬審第335号
各都道府県衛生主管部(局)長あて 厚生省薬務局審査課長通知
STRUCTURE AND CONTENT OF CLINICAL STUDY REPORTS
Recommended for Adoption at Step 4 of the ICH Process on 30 November 1995 by the ICH Steering Committee
11. 有効性の評価
11.4 有効性に関する成績及び個別患者データ一覧表
11.4.2 統計・解析上の論点
臨床及び統計の審査官用に,報告書の本文中に用いた統計解析方法を記述し,統計手法の詳細な文書(別添Ⅷを参照)を付録16.1.9として添えること。用いた解析方法,人口統計学的測定値若しくは基準値,又は併用療法についてなされた調整,脱落や欠測値の取扱い,多重比較に対する調整,多施設共同治験に対する特別な解析及び中間解析に対する調整を含む,解析の重要な側面について考察すること。盲検解除後になされた解析上の全ての変更点を明確にすること。
一般的な考察に加えて,下記の個々の論点を(該当するものについて)述べること。
11. EFFICACY EVALUATION
11.4 EFFICACY RESULTS AND TABULATIONS OF INDIVIDUAL PATIENT DATA
11.4.2 STATISTICAL/ANALYTICAL ISSUES
The statistical analysis used should be described for clinical and statistical reviewers in the text of the report, with detailed documentation of statistical methods (see section Annex IX) presented in appendix 16.1.9. Important features of the analysis including the particular methods used, adjustments made for demographic or baseline measurements or concomitant therapy, handling of drop-outs and missing data, adjustments for multiple comparisons, special analyses of multicentre studies, and adjustments for interim analyses, should be discussed. Any changes in the analysis made after blind-breaking should be identified.
In addition to the general discussion the following specific issues should be addressed (unless not applicable):
11.4.2.1 共変量による調整
人口統計学的測定値若しくは基準値,併用療法,又はその他の共変量若しくは予後因子の選択及びそれらによる調整を報告書中に説明し,調整の方法,解析結果及びそれらを裏付ける情報(例えば,共分散分析又はCox回帰の出力結果)を統計手法に関する詳細な文書中に含めること。これらの解析に用いられた共変量又は方法が治験実施計画書で計画されたものと違っていた場合には,それらの違いについて説明し,可能であり適切な場合には,計画された解析の結果も提示すること。個々の総括報告書の問題ではなく,複数の治験成績を総合するときの問題であるが,共変量及び予後因子を考慮にいれた治験間をまたがる解析は,臨床的有効性データの総括において情報をもたらす解析となり得る。
11.4.2.1 Adjustments for Covariates
Selection of, and adjustments for, demographic or baseline measurements, concomitant therapy, or any other covariate or prognostic factor should be explained in the report, and methods of adjustment, results of analyses, and supportive information (e.g., ANCOVA or Cox regression output) should be included in the detailed documentation of statistical methods. If the covariates or methods used in these analyses differed from those planned in the protocol, the differences should be explained and where possible and relevant, the results of planned analyses should also be presented. Although not part of the individual study report, comparisons of covariate adjustments and prognostic factors across individual studies may be an informative analysis in a summary of clinical efficacy data.
11.4.2.2 脱落又は欠測値の取扱い
脱落率に影響を及ぼす可能性のある種々の因子がある。これらには,治験期間の長さ,疾患の性質,治験薬の有効性及び毒性並びに治療と関連しない他の因子が含まれる。治験から脱落した患者を無視し,治験を完了した患者のみから結果を導くことは誤った評価を与える可能性がある。しかしながら大量の脱落は,たとえそれらを解析に含めたとしても偏りが生じる可能性があり,一方の治療群に多くの早期脱落があった場合,又は脱落の理由が治療若しくは結果に関連している場合は,特にその可能性が高い。早期脱落の影響の程度だけでなく,時には偏りがどちらの方向に作用するかということでさえ判断が困難なことがあるが,可能性がある影響はできる限り十分に検索すること。観察された症例を各種の時点について検討すること,あるいは脱落が高頻度であった場合には,多数の患者がまだ観察されており,なおかつ薬剤の作用が十分に発現しているような時点の解析に注目することが役立つこともある。このような不完備なデータを評価するためのモデル化の方法を吟味することも役立つこともあろう。
11.4.2.2 Handling of Dropouts or Missing Data
There are several factors that may affect dropout rates. These include the duration of the study, the nature of the disease, the efficacy and toxicity of the drug under study, and other factors that are not therapy related. Ignoring the patients who dropped out of the study and drawing conclusions based only on patients who completed the study can be misleading. A large number of dropouts, however, even if included in an analysis, may introduce bias, particularly if there are more early dropouts in one treatment group or the reasons for dropping out are treatment or outcome related. Although the effects of early dropouts, and sometimes even the direction of bias, can be difficult to determine, possible effects should be explored as fully as possible. It may be helpful to examine the observed cases at various time points or, if dropouts were very frequent, to concentrate on analyses at time points when most of the patients were still under observation and when the full effect of the drug was realised. It may also be helpful to examine modelling approaches to the evaluation of such incomplete data sets.
治験の結果は,治験を完了した患者という部分集団についてのみでなく,無作為化された全ての患者集団,又は少なくとも治験中の測定値のある全ての患者についても評価すること。脱落の影響を分析する際には,脱落理由,脱落時期,及び各種の時点における各治療群の脱落例の割合などの種々の因子を考慮し,治療群間の比較をする必要がある。
The results of a clinical trial should be assessed not only for the subset of patients who completed the study, but also for the entire patient population as randomised or at least for all those with any on-study measurements. Several factors need to be considered and compared for the treatment groups in analysing the effects of dropouts: the reasons for the dropouts, the time to dropout, and the proportion of dropouts among treatment groups at various time points.
欠測値の取扱いの手順,例えば推定値又は計算によって求めた値の利用を記述すること。そのような推定又は計算がどのようになされたか,そしてどのような仮定をおいたかを詳細に説明すること。
Procedures for dealing with missing data, e.g., use of estimated or derived data, should be described. Detailed explanation should be provided as to how such estimations or derivations were done and what underlying assumptions were made.
11.4.2.3 中間解析及びデータモニタリング
治験において蓄積途中のデータを解析することにより,それが公式なものか非公式なものかに関わらず,偏りの発生や第一種の過誤の増加が起こり得る。したがって,たとえ治療群が明らかにされていなくとも,公式なものであるか否か,事前に計画されていたか否かを問わず,治験参加者,治験依頼者側の担当者又はデータモニタリンググループにより実施された全ての中間解析を詳細に記述すること。そのような中間解析に対応させるための統計学的調整の必要性を記すこと。そのような中間解析に用いられた実施上の指示又は手順について記述すること。データモニタリンググループの会合の議事録,及びそのような会合で審議されたデータの報告,特に治験実施計画書の変更又は治験を早期終了へ導いた会合の議事録は有益であり,付録16.1.9に添付すること。盲検の解除をしないデータモニタリングであり,第一種の過誤を増加させないと考えられていても,それについて記述すること。
11.4.2.3 Interim Analyses and Data Monitoring
The process of examining and analysing data accumulating in a clinical trial, either formally or informally, can introduce bias and/or increase type I error. Therefore, all interim analyses, formal or informal, pre-planned or ad hoc, by any study participant, sponsor staff member, or data monitoring group should be described in full, even if the treatment groups were not identified. The need for statistical adjustment because of such analyses should be addressed. Any operating instructions or procedures used for such analyses should be described. The minutes of meetings of any data monitoring group and any data reports reviewed at those meetings, particularly a meeting that led to a change in the protocol or early termination of the study, may be helpful and should be provided in appendix 16.1.9. Data monitoring without code-breaking should also be described, even if this kind of monitoring is considered to cause no increase in type I error.
11.4.2.4 多施設共同治験
多施設共同治験とは,多くの施設(例えば,診療所,開業医,病院)において,共通の治験実施計画書を基に実施される単一の試験であり,集められたデータは全体として解析されるものである(これは,別々の試験から得られたデータ又は結果を事後的に統合することとは異なる)。しかしながら,例えば施設ごとに意味のある解析を行うに足る十分な症例数があるなど,適切な場合には,量的又は質的な治療-施設間交互作用の可能性を検討すること。施設間で極端な又は正反対の結果がみられたならば全て記載し,治験の実施,患者特性又は医療設備などが異なる可能性を考慮した上で論じること。治療の比較には,反応に関する施設間差を考慮した解析を含めること。全体としての解析が主たるものであるとしても,人口統計学的データ,基準値及びその後の測定データは,有効性のデータと同様に施設ごとに提示すること。
11.4.2.4 Multicentre Studies
A multicentre study is a single study under a common protocol, involving several centres (e.g., clinics, practices, hospitals) where the data collected are intended to be analysed as a whole (as opposed to a post-hoc decision to combine data or results from separate studies). Individual centre results should be presented, however, where appropriate, e.g., when the centres have sufficient numbers of patients to make such analysis potentially valuable, the possibility of qualitative or quantitative treatment-by-centre interaction should be explored. Any extreme or opposite results among centres should be noted and discussed, considering such possibilities as differences in study conduct, patient characteristics, or clinical settings. Treatment comparison should include analyses that allow for centre differences with respect to response. If appropriate, demographic, baseline, and post-baseline data, as well as efficacy data, should be presented by centre, even though the combined analysis is the primary one.
ガイドライン ― Q&A
多施設共同治験
Q13:多施設共同治験における施設間の成績の差異の検討の記載について伺いたい。
A13:施設と治療成績の間の交互作用についての考察を記載することが必要である。特に,施設ごとに意味のある統計解析を行うに足る十分な患者数がある場合,例えば1施設1群あたり10名を超えるような場合には,治療-施設間交互作用についての統計的検討結果を記載すること。
***
11.4.2.5 多重比較・多重性
実施される有意性検定の回数(比較回数)の増加に伴い,言い過ぎの誤りの確率が増す。主たるエンドポイント(結果の指標)が複数あった場合,特定のエンドポイントに対して複数の解析を行った場合,多くの治療群があった場合,又は患者集団のうちのいくつかの部分集団について検討した場合には,多重性の問題を認識していることを統計解析に反映すべきであり,第一種の過誤の水準に対して用いた統計学的調整を説明するか,又はそれらを不必要と考えた理由を述べること。
11.4.2.5 Multiple Comparison/Multiplicity
False positive findings increase in number as the number of significance tests (number of comparisons) performed increases. If there was more than one primary endpoint (outcome variable), more than one analysis of particular endpoint, or if there were multiple treatment groups, or subsets of the patient population being examined, the statistical analysis should reflect awareness of this and either explain the statistical adjustment used for type I error criteria or give reasons why it was considered unnecessary.
11.4.2.6 患者の「有効性評価の部分集団」の使用
服薬遵守の不良,来院しないこと,不適格であること又は他の理由により,利用可能なデータを持った患者を解析から除外することの影響について特別の注意を払うこと。先に述べたごとく,たとえ申請者が主たる解析として提案したものでないにしても,有効性の検証を意図した試験においては常に,利用可能な全データを用いた解析を実施すること。一般に,解析に対する患者集団の選択方法によらず試験の主要な結論が変わらないことを示すことは有益である。解析に用いる患者集団の違いによる結果の大きな差について,明確に考察すること。
11.4.2.6 Use of an "Efficacy Subset" of Patients
Particular attention should be devoted to the effects of dropping patients with available data from analyses because of poor compliance, missed visits, ineligibility, or any other reason. As noted above, an analysis using all available data should be carried out for all studies intended to establish efficacy, even if it is not the analysis proposed as the primary analysis by the applicant. In general, it is advantageous to demonstrate robustness of the principal trial conclusions with respect to alternative choices of patient populations for analysis. Any substantial differences resulting from the choice of patient population for analysis should be the subject of explicit discussion.
11.4.2.7 同等性を示すことを意図した実対照薬を用いた試験
実対照薬を用いた試験が,被験薬と実対照薬の間の同等性(あらかじめ設定された大きさ以上には差がないこと)を示すことを意図している場合は,主要なエンドポイントについて二つの薬剤を比較するために信頼区間を示し,これ以上劣っていては許容できないと予め設定した大きさと,その区間との関係を解析して示すこと。(実対照薬を用いた同等性デザインを使用するときに考慮すべき重要な点として9.2節を参照すること。)
11.4.2.7 Active-Control Studies Intended to Show Equivalence
If an active control study is intended to show equivalence (i.e., lack of a difference greater than a specified size) between the test drug/investigational product and the active control/comparator, the analysis should show the confidence interval for the comparison between the two agents for critical end points and the relation of that interval to the prespecified degree of inferiority that would be considered unacceptable. (See 9.2, for important considerations when using the active control equivalence design.)
11.4.2.8 部分集団の検討
もし試験の症例数が十分に多いならば,重要な人口統計学的測定値又は基準値で定義される部分集団について,異常に大きな又は小さな反応があるかどうか及び得られた結果について検討すること。例えば年齢,性若しくは人種別,重症度別若しくは予後因子による分類別,又は同一薬効群の薬剤による前治療歴別に効果を比較すること。これらの解析が,試験の規模が小さすぎるという理由で実施されなかったならば,その旨を記すこと。これらの解析は,部分集団についての検討を行わなければ効能が裏付けられないような試験の「救済」を意図するものではなく,他の試験で検討する価値のある仮説を示唆する,又は表示情報の充実,患者の選択,用量の選択などに役立つ可能性のあるものである。特定の部分集団における特定の効果についての仮説があらかじめある場合,その仮説とその評価は計画された統計解析に含まれるべきである。
11.4.2.8 Examination of Subgroups
If the size of the study permits, important demographic or baseline value-defined subgroups should be examined for unusually large or small responses and the results presented, e.g., comparison of effects by age, sex, or race, by severity or prognostic groups, by history of prior treatment with a drug of the same class etc. If these analyses were not carried out because the study was too small it should be noted. These analyses are not intended to “salvage” an otherwise non-supportive study but may suggest hypotheses worth examining in other studies or be helpful in refining labelling information, patient selection, dose selection etc. Where there is a prior hypothesis of a differential effect in a particular subgroup, this hypothesis and its assessment should be part of the planned statistical analysis.
ガイドライン ― Q&A
部分集団における検討
Q14:「11.4.2.8 部分集団の検討」において留意すべきことは何か。
A14:特定の部分集団における特定の効果について仮説を予めたてた場合は,その仮説及び解析を計画書の統計解析の項に含めることが必要である。一般に,その際は統計的な多重性の考察が必要になるであろう。
これに対し,事後的に実施した部分集団の検討結果は,その薬剤の申請上特徴の主張のために利用することはできない。例えば,特定の部分集団における用量調節情報とか,使用上の注意など,その薬剤の適正使用のために使用する情報であると解釈すべきであると考える。
***
ガイドライン ― 別添Ⅷ
11.4.2項- 「統計・解析上の論点」及び付録16.1.9の手引き
A. 統計学的考察
それぞれの主要な有効性の変数について実施した統計解析の詳細を付録に示すこと。詳細な報告書には少なくとも以下の情報を含めること。
a)解析の基礎にある統計的モデル。必要なら引用文献を用いて正確かつ完全に示すこと。
b)検定した臨床上の正確な主張の統計学用語による記述(例えば,帰無及び対立仮説の観点からの記述)。
c)効果の推定,信頼区間の設定などに適用した統計手法。適切な箇所に引用文献を含めること。
d)統計手法の適用の前提となる諸仮定。特に推論の妥当性を確認する必要があるときには,統計的に妥当な範囲で,そのデータが重要な仮定を満足していることを示すこと。申請者が広範な統計解析を実施した場合は,データを入手する以前にどの程度の解析を計画していたかを考慮することが必須である。もし計画していなかったならば,結論の根拠として用いた特定の解析手法の選択にあたって,どのように偏りを避けたのかを考察することが必須である。これは部分集団の解析を行う場合にきわめて重要である。なぜなら,もし実施した解析が前もって計画されていなかったならば,通常,その結果は確定的な結論の十分な根拠とはならないからである。
(ⅰ)データ変換が行われた場合には,変換データに基づく治療効果の推定量の解釈とともに,データ変換を選択した理論的根拠を示すこと。
(ⅱ)統計解析手順の選択の適切性及び統計的結論の妥当性に関する考察は,審査当局の審査官が再解析が必要かどうかを決定する際の指針となる。
e)審査当局の審査官が解析結果を迅速かつ容易に確認できるような書式に従った,検定統計量,帰無仮説の下での検定統計量の標本分布,検定統計量の値,有意水準(すなわちp 値)及び中程度の要約データ。p 値は片側検定又は両側検定のどちらかであるかを明記すること。片側検定を用いた場合は,その理論的根拠を示すこと。
例えば,2標本t 検定に関する資料は,t 統計量の値,その自由度,p 値,2標本の大きさ,各々の標本における平均値と分散及び合成された分散の推定値を含むこと。分散分析法により解析された多施設共同治験に関する資料には,要因として施設,治療法,それらの交互作用,誤差項及び合計欄を備えた分散分析表を最低限含めること。クロスオーバー試験については,投与順序,投与順序内の患者,各期の開始時の基準値,ウォッシュアウト期間とその長さ,各期における脱落,治療法,時期,治療法と時期の交互作用及び(要因の)合計に関する情報を含めること。個々の変動要因について,表には自由度,平方和,平均平方,適切なF 検定,p 値及び平均平方の期待値を含めること。
中程度の要約データは,それぞれの観察時期について,施設-治療の個々の組合わせ(又は投与順序のような他のデザイン上の特性)ごとに,人口統計学的データ及び反応データを平均又は他の方法で要約して示すこと。
B. 審査当局の審査官より要求されるデータ提出のための書式及び仕様
それぞれの比較対照治験の報告書においては,統計解析のために治験依頼者が使用した患者データのリスト(表)並びに結論及び主要な知見を裏付ける表が必要である。審査当局の統計審査のためにはこれらのデータリストが必要であり,治験依頼者に対してこれらの患者データの一覧表をコンピュータで読取り可能な方式で提出することが依頼されることもある。
***