
1.基于文本模式的抽取
基于文本模式构建抽取规则是缩略词抽取最常用的方法。由于缩略词本质上是同义词的一种形式,因此缩略词抽取中使用的规则与同义词抽取中的很相似。在缩略词抽取中,常见的基于文本模式的抽取规则,如表1所示。
表1 常见的基于文本模式的抽取规则
2.抽取结果的清洗和筛选
对缩略词搜索结果的清洗和筛选方法主要分为两种。
(2) 使用机器学习模型构建二元分类模型,以此判断抽取出的缩略词正确与否。
这类算法常常需要事先构建一定规模的标注数据集。同时,这类算法依赖人为设计的特征,这些特征既包括前面提到的一系列统计指标,也包括文本特征。
缩略词判定中常用的文本特征包括字符匹配程度和词性特征。
3.枚举并剪枝
枚举并剪枝是针对中文缩略词提出的一种有效方法。对于中文缩略词而言,缩略词中常常仅包含原词中的字符,并且字符间保持原有顺序。枚举并剪枝方法的输入是语料以及某个给定实体。这一方法首先穷举目标实体名称所有子序列,即所有可能的缩略形式,进一步排除没有在文本中出现过的或者出现次数太少的候选缩略词。
缩略词抽取方法虽然能够获取大量的缩略词对,但受限于语料大小,其对于新登录词往往效果较差。目前一些相关研究着眼于分析缩略词的规则,自动习得缩略词形式并进行预测。这种方法不依赖于语料,仅依靠输入的全称的相关文本,通过自然语言模型预测该全称可能的缩略词形式。以下以中文缩略词预测为例,介绍几种典型的预测方法。
参考书籍
即可查看图书详情
常盈配资提示:文章来自网络,不代表本站观点。