スペシャルテストの正確さをどうやって評価するか?
こんにちは。イマザキです。
今回はスペシャルテストに関する論文を読む際に大事になってくる用語を紹介します。
1、スペシャルテストとは?
スペシャルテスト(またはストレステストとも言いますが)とは何かの障害が疑われる際に用いられるマニュアルテストの事を指します。代表的な例で言えばACL損傷が疑われる際に用いられるラックマンテストや棘上筋損傷が疑われる際に用いられるエンプティ―カンテストなどが挙げられます。
様々なケガに対して多くのスペシャルテストがあり、スポーツ医学系の学部または専門学校で障害の評価の際に学ぶことも多いと思うのですが、それぞれのテストがどれほど正確かという事までは僕が学生の頃、日本では習いませんでした。(単純に僕が勉強不足だった可能性もありますが、、、)
もちろんこれらのテストは手技ですので経験がものをいうという側面はあります。(実際、整形外科のドクターが行う場合、動きに無駄がなく力加減も絶妙で惚れ惚れします。)しかし経験豊富なドクターが行った場合においても正確なテストとあまり正確でないテストがあったりします。これらはきちんと論文に書かれていることも多く、そのテストの特性を知ることは実際に評価を下す際に役に立ちます。また新しいスペシャルテストを学んだ時にそれって実際どのくらい正確なのかを調べることは実際に現場でそのテストを使うのかの判断に役立ちます。
ということで本題に入りましょう。
2、再現性
そのテストが実際に有用かを考える際に必要なこととしてまず再現性と正確性が挙げられます。ここではまず再現性を見ていきましょう。
再現性とはその名の通り、同じ結果が得られるかという事です。スペシャルテストを評価する際、再現性には大きく分けて2つの再現性があります。一つはInterrater Reliabilityで二つめがIntrarater Reliabilityです。値としては0から1.0の間の値を取ります。
Interrater Reliability:評価者間の評価の結果がどの程度一致するかを示します
Intrarater Reliability:同じ評価者が複数回評価を行った際、どの程度結果が一致するかを示します。<0.5:Poor
0.5-0.75:Moderate
>0.75:Good
再現性が低い=正確性に欠けるという訳ではないのですが、スペシャルテストに於いては再現性が低いものはあまり現場で使えるとはいいがたいでしょう。
3、正確性
正確性とは簡単に言うとそのテストの結果がどの程度本当の状態と一致しているかという事を指します。スペシャルテストの評価においては、基本的にゴールドスタンダードトいわれる評価法とそのスペシャルテストの結果を比べます。ゴールドスタンダードはMRIの結果や内視鏡検査などがそれにあたります。そしてこのゴールドスタンダードの結果とスペシャルテストの結果を比べる際に用いられるのが下の図です。
この図ではスペシャルテストとゴールドスタンダードとされるテストの結果に応じてTrue Positive, False Positive, True Negative, False Negativeに分類されます。この中でTrue PositiveとTrue Negativeの割合が大きいスペシャルテストが正確性の高いテストという事になります。
4、SensitivityとSpecificity
ここで単純にそのテストがどの程度正しかったかを見るのも良いのですが(TP/TP+FP Positive Predictive Valueとも言います)、それだと発生頻度が極端に低い障害の評価をする際に実際よりも低い値が出たり、複数の研究を比べたりする際に不都合です。そこでよく使われる指標がSensitivity とSpecificityになります。
Sensitivityとはそのテストがどの程度対象としているケガを負っている対象者を判別できるかを指します。True Positive Ratioとも言います。計算方法は以下のようになり、0から1.0の間の値を取り、1.0に近いほど良いとされます。
Sensitivity=TP/(TP+FN)
TP:True Positive, FN:False Negative
Sensitivityが良いテストは取りこぼしが少ないとも言えます。つまりSensitivityが良いテストでNegativeと評価されたものは診断の際に候補から外せる可能性が高くなります。よくSnNout (Sensitivity Negative finding rule Outの略)と呼ばれたりします。
SpecificityとはSensitivityの逆でそのテストがどの程度ケガを負ってない対象者を判別できるかを指します。True Negative Valueとも言います。計算方法は以下のようになりこれも0から1.0の間の値を取り、1.0に近いほど良いとされます。
Specificity=TN/(TN+FP)
TN: True Negative, FP: False Positive
Specificityが良いという事は別の言い方をすればPositiveと誤診しにくいという事になります。なのでここでPositiveになった場合、より一層そのケガを負っている可能性が高いという事を意味します。またSpPin (Specificity Positive finding rules Inの略)と呼ばれたりします。
4、Positive Likelihood RatioとNegative Likelihood Ratio
先に挙げたSensitivityとSpecificityという値も十分に使える値ですが、ほかにもLikelihood Ratioという指標も存在します。これはそのテストを行った結果、本当にそのケガを受傷している可能性(Negativeの場合は受傷していない)がどの程度上がるかを示します。
計算式は以下のようになります。一般的にPositive Likelihood Ratioで10以上、Negative Likelihood Ratioで0.1以下が非常に優れたテストとされています。
Positive Likelihood Ratio=Sensitivity/(1-Specificity)
>10: Excellent
5-10:Moderate
2-5:Small
1-2:Very Small
Negative Likelihood Ratio=(1-Sensitivity)/Specificity
<0.1:Excellent
0.1ー0.2:Moderate
0.2-0.5:Small
>0.5:Very Small
本来はMonogramという図を用いて使われます。このMonogramの左の値はそのケガの発生率を表します。また真ん中の値はLikelihood Ratioを、そして右側の値はそのテストを行った後のそのケガを負っている可能性を表します。使い方はそのケガの発生率とそのテストのLikelihood Ratioを線で結びその延長線上で右の縦軸にぶつかったところの値がそのケガを負っている可能性になります。
このテスト前の発生率は、調査などで分かっていればそれに越したことはないのですが、実際にはそのようなケースは稀です。またその競技によっても変わってきます。例えばバスケ選手では肩のSLAP損傷はあまり起こることはありませんが、野球選手だとその可能性は上がり、ピッチャーに限定するとさらに上がります。さらに受傷起点や症状を考慮に入れるとそのテストをする前の時点でのケガの可能性は変わってきます。
なので実際に現場で使うとしたらMonogramではなく大まかに上に挙げた数値を参考にこのテストはPositive Likelihood Ratioがどのくらいか、Negative Likelihood Ratioがどのくらいかを頭に入れておくのが良いのではないかと思います。
まとめ
上をまとめるとこのようになります。
SpecificityとPositive Likelihood Ratioが良いテスト→Positiveの際に重視。
SensitivityとNegative Like Likelihood Ratioが良いテスト→Negativeの際に重視。
今回はスペシャルテストの正確性を評価する際に用いられる用語を解説しました。それぞれのテストで診断の考慮に入れることが得意なテストがあれば、逆に考慮から外すのが得意なテストもあって、同じケガを評価するスペシャルテストでも性格が違うよってことが分かってもらえばと思います。
またどんどん新しいスペシャルテストが出てくるので、新しいテストに出会ったら上に挙げた数値は今までのテストに比べてどうなのかという事に注目してみるのもいいでしょう。
それでは。