恭喜 生資所楊立威老師團隊所開發之剽竊偵測全文搜尋引擎發表於國際期刊 IEEE Journal of Biomedical and Health Informatics
本校生醫院生資所楊立威教授、陽交大資工系洪瑞鴻教授協同生物資訊及分子設計顧問公司普睿思共同開發出了具有隱私模式搜尋功能的全文比對引擎Sapiens Aperio Veritas Engine (S.A.V.E.)。該引擎先將敏感文件中的文字做破壞性的編碼成為無意義的氨基算序列,再利用次世代定序中幫助reads映射到參考基因組的對應位置的FM-index演算法來高速地比對此無意義的序列是否與亦存於資料庫中、也經由一樣轉換方法編碼的網路內容,來達到剽竊偵測的目的之餘,但卻不讓搜尋引擎的提供者知悉完整的上傳內容。此舉將提供對於機密性文件(未發表的研究成果及專利、其他機密文件 )的原創性評估一個新的管道。搜尋結果也不再輕易被用於推銷針對個人喜好的商品。此搜尋引擎能以兩倍以上的速度找到比turnitin.com多1.6倍的連續抄襲片段,不只提供剽竊百分比亦提供文中最長連續多少字有抄襲之新指標(Continuously Copied Words; CCW),並不受輕微的paraphrase的影響。隱私搜尋方面,S.A.V.E.只有0.76%的偽陽性,比對速度比BLAST快十萬倍,網路搜尋的精準度達94%。研究並且發現若以現今的剽竊百分比當判斷剽竊與否的指標,又定義連續21字以上與網路內容一模一樣即算剽竊時,在設定剽竊百分比>30%以上即為抄襲的前提下,有83%的真正抄襲是偵測不到的; 在設定剽竊百分比>20%以上即為抄襲的前提下,有65%的真正抄襲是偵測不到的。此結果亦凸顯了當前學界因被主流軟體誤導而把剽竊標準設定為剽竊百分比的嚴重問題,也讓此工具所提出的CCW指標別具意義。
引擎入口:
https://dyn.life.nthu.edu.tw/SAVE/
https://save.praexisio.com.tw (2020年技轉)
文章連結:
1. aRxiv - https://arxiv.org/abs/2201.00696
2. IEEE JBHI (in press)
台美專利:
https://patents.google.com/patent/US11232157B2/en (US11232157B2)
https://patents.google.com/patent/TWI719537B/en(TWI719537B)