查全率是什么意思詞義解釋來源:辭書
1:查全率(recall rate)是評估檢索成效的一項指標又稱召回率。在資訊檢索系統中系統找出相關資料的筆數與文件庫中應有的相關資料總筆數的比值稱為查全率。例如:假設在某一次檢索需求中相關文件的總篇數應該有50筆而在系統回傳的100筆結果中只有20筆相關文件則此次檢索的查全率為20/50=0.4或是40%。查全率可以用來了解系統找回所有相關資料的能力或是系統遺漏相關資料的情形。根據上述定義在大多數的情況下查全率都不易獲得。針對某次檢索需求想知道系統中應有的相關文件總筆數必須將檢索系統中所有的文件每一篇都經人工判斷過才能得知。檢索系統中的文件動輒上萬篇甚至上百萬篇一篇篇判斷下去成本非常驚人。因此在求取系統的查全率時常以便宜措施來近似系統中應該有的相關文件總篇數。最常用的方式是針對同一個查詢需求以M種不同的檢索技術或系統分別找出前N篇文件取得最多M*N篇文件做相關判斷。這種作法的合理性是假設:不被任何檢索技術與系統找出來的文件都認為其與該次檢索需求不相關因而不用再進行人工判斷。與原先的作法相較只判斷這M*N篇文件可以大幅降低求取查全率的成本。跟查全率非常相關的概念是查準率其為系統找出相關資料的筆數與系統傳回資料筆數的比值。在衡量系統檢索成效時查全率與查準率是一起并用的單獨檢視其中一項指標并無意義。例如假設資料庫內有文件10000篇就某一個檢索主題其中應有的相關文件有100篇若系統僅查詢出1筆資料且此資料是相關的則其查準率為100%但此時系統漏掉了99篇相關文件。同理若系統將資料庫里所有的文件都當作查詢結果回覆使用者則必然涵蓋其中的100篇相關文件因而其查全率為100%但此時系統查出9900篇不相關的資料浪費使用者檢視結果的時間。查全率的取得成本雖高因有上述的理由仍是進行嚴謹的檢索成效比較時不可或缺的指標。查全率與查準率一起并用的方式有數種詳見查準率辭條。在某些資訊檢索的任務中相關文件應有的總筆數可能非常稀少只有一筆、二筆。例如在問答系統(question answering systems)中詢問「孫中山卒于何年?」系統傳回的回答應該只有公元1925或是1925年是相關的其他皆非。此時系統的查全率很容易出現只有0或是1的極端數值不利于系統的成效比較。因此遂有「相關文件排名倒數平均」或是「平均倒數率」(mean reciprocal rate簡稱MRR)的指標提出。亦即評估這些系統時不僅以一道或少量題目來評估而是N道題目如N=500、N=1000等。將查詢結果中相關文件首次出現的排序名次加以倒數再加總所有題目的這些倒數后取平均值即為MRR指標的數值。
|