晟红网知识图谱|缩略词的检测与提取

1.基于文本模式的抽取

基于文本模式构建抽取规则是缩略词抽取最常用的方法。由于缩略词本质上是同义词的一种形式，因此缩略词抽取中使用的规则与同义词抽取中的很相似。在缩略词抽取中，常见的基于文本模式的抽取规则，如表1所示。

表1 常见的基于文本模式的抽取规则

2.抽取结果的清洗和筛选

对缩略词搜索结果的清洗和筛选方法主要分为两种。

(2) 使用机器学习模型构建二元分类模型，以此判断抽取出的缩略词正确与否。

这类算法常常需要事先构建一定规模的标注数据集。同时，这类算法依赖人为设计的特征，这些特征既包括前面提到的一系列统计指标，也包括文本特征。

缩略词判定中常用的文本特征包括字符匹配程度和词性特征。

3.枚举并剪枝

枚举并剪枝是针对中文缩略词提出的一种有效方法。对于中文缩略词而言，缩略词中常常仅包含原词中的字符，并且字符间保持原有顺序。枚举并剪枝方法的输入是语料以及某个给定实体。这一方法首先穷举目标实体名称所有子序列，即所有可能的缩略形式，进一步排除没有在文本中出现过的或者出现次数太少的候选缩略词。

缩略词抽取方法虽然能够获取大量的缩略词对，但受限于语料大小，其对于新登录词往往效果较差。目前一些相关研究着眼于分析缩略词的规则，自动习得缩略词形式并进行预测。这种方法不依赖于语料，仅依靠输入的全称的相关文本，通过自然语言模型预测该全称可能的缩略词形式。以下以中文缩略词预测为例，介绍几种典型的预测方法。

参考书籍

即可查看图书详情

常盈配资提示：文章来自网络，不代表本站观点。