期刊介绍
期刊导读
- 07/30内蒙古高校实力排行,内蒙古大学勇夺桂冠,内
- 07/30便捷就医 内蒙古开出首张医疗收费电子票据
- 07/30中华儿慈会教育与医疗公益项目推介会暨内蒙古
- 07/28内蒙古济生中医医院开展爱心义诊活动
- 07/27了解内蒙古?走进内蒙古?爱上内蒙古
面向教育的中文知识图谱自动构建技术(3)
在基于PPT 演示文稿生成知识图谱的过程中,首先提取出包含层次结构的PPT 演示文稿的纯文本内容,然后使用模型依次按行提取关键概念,并判断提取的关键概念的层次,再将提取结果依次保存到该层次指定的位置上,对两次保存的结果进行对比,最后依据关系提取规则将对比结果进行结合,并根据赋值规则赋予提取结果一定的权重值。
(1)提取PPT 演示文稿文档中的纯文本数据
提取的纯文本数据包括文本内容及文本内容间的层次关系。本文使用Microsoft Office 软件将PPT 演示文稿文件保存为RTF 文件,达到提取目的。
(2)模型介绍
本文使用RoBERTa-wwm+BiLSTM+CRF 三层模型提取PPT 演示文稿层次中的概念。BiLSTM+CRF 是现在较为主流的实体识别模型(见图4),双向的LSTM 模型可以更好地处理输入前后的特征;CRF 层使得模型可以使用句子级别的标签信息,从而更好地建模标签之间的限定关系。
在训练过程中,为构建模型的训练语料,本文采用Inside-Outside-Beginning(IOB)标注体系对文本进行标注,获得训练集。将训练集中句子输入到RoBERTa 模型,其输出的结果(词向量)作为BiLSTM 的输入。图4展示了BiLSTM+CRF 模型的框架。
图4 BiLSTM-CRF 模型架构
BiLSTM 模型的输出结果是各个标签的概率,作为CRF 的输入。不使用CRF 模型的情况下,BiLSTM 模型会输出结果中概率最大的结果作为最终结果。但是,当预测结果的得分都很高时,并不是得分最高的结果就是最好的结果。CRF 弥补了BiLSTM 的不足,不仅考虑了概率值的大小,还使得转移概率相加值最大,即考虑前后标签的情况使选择结果符合输出规则。
对于每一个输入x=(x1,x2,...,xn),预测得到一个lable 序列y=(y1,y2,...,yn)。定义这个预测的得分:
其中pi,yi为第i 个位置输出为yi的概率,Ayi,yi+1为从yi到yi+1的转移概率。
求出每个训练样本x 所有可能的标注序列y 的得分S(x,y),并对所有得分进行归一化:
对公式2 左右两边取对数,即得损失函数:
由于我们的目标是最小化损失函数,所以对公式3取负值:
通过完成上述过程,完成模型的训练。再使用训练好的模型进行后续工作。
(3)关系提取规则
PPT 演示文稿的特点是层次结构较为显著,如图5所示,本文将PPT 演示文稿的层次结构分为三种:①上下层关系,即处于相邻层次两个概念的关系。如概念A 处于第一层,概念C 和F 位于第二层,概念A 和概念C(或F)之间就属于上下层关系。对于上下层关系的两个概念,定义它们之间有先决关系,位于上一层次的概念是下一层次概念的头概念,并对其关系赋予一定的权重值。本文赋予具有上下层关系的概念之间的权重赋值为1。②同层次关系,即处于同一层次的概念的关系。如概念A 和B都处于第一层,属于同层次关系。同理,概念C 和F、概念D 和E 也都属于同层次关系。对于同一层次的两个概念,由于它们出现在同一个大标题下,定义它们之间有较弱的先决关系,赋予较小的权重值,并且定义前一个概念为后一个概念的前驱概念。本文中,赋予具有上下层关系的概念之间的权重赋值为0.2。③隔层次关系,即处于不相邻的两个层次的概念所具有的关系。如概念A 和D 分别位于第一层和第三层,属于隔层关系。本文不对具有此关系的概念进行判定。不同层次关系的具体赋值规则如表1 所示。根据关系提取规则生成的网络图示例如图6 所示。
图5 PPT 演示文稿的层次结构
表1 不同层次关系赋值规则
3.KG-T&S:基于教材构建的知识图谱和PPT 演示文稿构建的知识图谱融合技术
图6 基于PPT 演示文稿生成的知识图谱示例
本文把基于教材文本生成的知识图谱和基于PPT演示文稿文本生成的知识图谱进行融合,融合规则如图7 所示。对规则总结为以下两种情况:①对于两者关系相同的部分,保留知识图谱中的关系:若PPT 演示文稿中此关系的权重为1,则将融合后的关系的权重值设置为2;若PPT 演示文稿中此关系的权重为0.2,则将融合后的关系的权重值设置为1.2。②对于关系不同的部分,则参考PPT 演示文稿的知识图谱中的权重值:若权重值为1,则对教材知识图谱中的关系进行调整,并将调整后的关系赋予新的权重值;若权重值为0.2,则不对教材知识图谱中的关系进行调整,对教材知识图谱中的此关系进行保留,并对此关系赋予权重值。
文章来源:《内蒙古教育》 网址: http://www.nmgjyzzs.cn/qikandaodu/2021/0730/1179.html
上一篇:浅谈儿童乐园的景观设计
下一篇:基于技术的基础教育资源平台建设研究