搜档网
当前位置:搜档网 › 基于向量空间模型的题库相似度检查算法

基于向量空间模型的题库相似度检查算法

2010年第19卷第3期计算机系统应用

基于向量空间模型的题库相似度检查算法①汪忠国吴敏(中国科学技术大学现代教育技术中心安徽合肥230026)

摘要:随着题库系统的广泛应用和题库中试题数量的日益增大。如何避免试题重复,成为研究的重要问题。

利用向量空间模型。首先通过TF—IDF公式得到试题的文本权重向量,再通过余弦理论计算试题相似度,并与设定的相似度阈值比较,得到相似度检查结果。在现有题库的基础上进行的实验结果显示,算法计算出的试题相似度的准确率与专家人工判别相比达到94%。算法取得了较好的结果。

关键词:向量空间模型;相似度检查;单文本词汇频率;逆文档频率;余弦理论

SimilarityCheckingAlgorithminItemBankBasedOilVectorSpaceModel

WANGZhong—Guo.WUMin

(CenterofModemEducationalTechnology,UniversityofScienceandTechnologyofChina,Hefei230026,China)Abstract:Withawideuseofitembanksystemandtheincrementofitemsinitembanksystem,howtOavoidduplicateitemsbecomes

animportantresearchtopic.ThispaperfirstgetstextwithvectorswithTF-IDFformulathroughthealgorithmbasedonvectorspacemode(VSM)theory.Then。itgetsthesimilarityof

itemsbyusingcosinetheory,whichisusedforthecomparisonwiththethresholdvalueinitializedtoget

similaritycheckingresulting.Basedontheexistingitembanksystem,theexperimentwiththisalgorithm

showsthattheexactrateof94%isgained,whichisagoodresultcomparedwithexpertchecking。

Keywords:vectorspacemodel;siⅡlilaritychecking;TF;IDF;cosinetheory

随着计算机在教学领域的应用和发展,试题库的编制和应用也越来越显示出其重要性。题库系统的核心问题是优质的试题、合理的试题库结构【11。但是,随着题库中试题量的日益增大,依赖专家出题时人工判别试题是否相似或重复,难度较大,因此,如何建立一个合适的能够识别相似试题的算法成了建立优质题库的关键。

本文利用向量空间模型的理论,先使用TF-IDF公式将待检查试题的文本向量化,再通过余弦理论计算待检查试题的文本向量和题库中现有试题的文本向量的余弦值得到试题相似度,之后通过与设定的相似度区别阈值比较,得到试题是否重复的结果。在结果显示试题不相似的情况下,题库系统直接保存待检查试题入库,否则,题库系统对用户进行重新出题或更换试题等提示o

①收稿时间:2009—06—301算法相关概念及模型介绍

1.1试题相似度

试题相似度是指两道试题在元数据和内容上的相似程度.在【0,1】之间取一实数值,值越大表明两道试题越相似,当取值为1时,表明两道试题完全相同;值越小则表明两道试题相似度越低,当取值为0时,表明两道试题完全不同【2l。

1.2向量空间模型

向量空间模型3】是信息检索领域进行语句相似度比较的常用模型。在现代信息检索这本书中的定义为:对于待检查文本q中的每一个单词,使用(Wi.q)代表此文本中第i个单词的权重,同样使用(Wj。j)代表已有文本j中第i个单词的权重,从而可以用

q=ONI,q,W2.q,…,Wt.q)和孑=(\^/1J,W2j,…。Wtd)表示待检查文本q和已有文本j的单词权重向量。

ExperiencesExchange经验交流213

万方数据

相关主题