免费获取
|
论文天下网
|
原创毕业论文
|
论文范文
|
论文下载
|
计算机论文
|
论文降重
|
毕业论文
|
外文翻译
|
免费论文
|
开题报告
|
心得体会
|
全站搜索
当前位置:
论文天下网
->
免费论文
->
计算机论文
基于知识库的的问答式系统的研究(三)
关系(如“谷物”,“煤田”等)
知网的一个重要特点是:类似于同义、反义、对义等种种关系是借助于同义、反义以及对义组的,由用户自行形成而不是逐一地、显性地标注在各个概念之上的。
知网是一个知识系统,而不是一部语义词典。尽管被我们称为知识词典的常识性知识库是知网的最基本的数据库。知网的全部的主要文件包括知识词典构成了一个有机结合的知识系统。例如,主要特征文件、次要特征文件、同义、反义以及对义组的形成,以及事件关系和角色转换等都是系统的重要组成部分,而不仅仅是标注的规格文件。
2.1.3 知网的建设方法
知网是一个以上述各类概念为描述对象的知识系统而不是一部义类词典。知网是把概念与概念之间的关系以及概念的属性与属性之间的关系形成一个网状的知识系统。这是它与其他的树状的词汇数据库的本质不同。知网的哲学和它的根本特性决定了它的特别的建设方法。在清楚知网的建设方法之前,必须明白一个概念:义原。
什么是义原?目前还难以定义,但是并不因为它难于定义人们就无法把握和利用它们。大体上说,义原是最基本的、不易于再分割的意义的最小单位。例如:“人”虽然是一个非常复杂的概念,它可以是多种属性的集合体,但我们也可以把它看作为一个义原。我们设想所有的概念都可以分解成各种各样的义原。同时我们也设想应该有一个有限的义原集合,其中的义原组合成一个无限的概念集合。如果我们能够把握这一有限的义原集合,并利用它来描述概念之间的关系以及属性与属性之间的关系,我们就有可能建立我们设想的知识系统。
知网一个重要特点是对大约六千个汉字进行考察和分析来提取这个有限的义原集合。以事件类为例,在中文中具有事件义原的汉字(单纯词)中,可以提取出数千个义原。例:
治:医治 管理 处罚 ……
处:处在 处罚 处理 ……
理:处理 整理 理睬 ……
综上所述,知网的建设方法的一个重要特点是自下而上的归纳的方法。它是通过对全部的基本义原进行观察分析并形成义原的标注集,然后再用更多的概念对标注集进行考核,据此建立完善的标注集。
在初步确定了一批义原并形成了一个基本的标注集之后,如何考核和确定?第一、在扩大标注中观察该义原的覆盖面。知网有一条原则:已有的义原一定要能够描述全部的概念。这里有一个比较硬性的规定,即当我们发现一个具有多个概念的词语,例如八个,而我们以有的义原不能够把这八个概念区别开来时,我们就必须对我们的标注集加以调整,这是绝大多数的情况。第二、观察某一个义原在概念之间关系中的地位。如果一个义原在同类别的许多概念中出现或者不同类别的概念中出现,那么这样的义原就是稳定的义原是一个必须确定的义原。以事件类“医治”这个义原为例,它不仅出现在“医”、“治”、“治疗”、“医疗”、“治病”、“求医”、“看病”等概念中,并且还出现在“医生”、“医院”、“医药”、“诊所”、“不治之症”、“有病乱投医”。因此,“医治”这个义原是稳定的、是必须确定的。
无论是义原的提取还是义原的考核与确定,在知网的建设中都是至关重要的和具有决定意义的。它们贯穿于知网建设的全过程。因此,知网建设的方法的主要特点是:(1)自下而上的;(2)标注集的形成和知网建设是互动的。
2.1.4 知网系统的概貌
知网系统包括下列数据文件和程序(1) 知网管理系统 (2) 中英双语知识词典
知网的规模主要取决于双语知识词典数据文件的大小。由于它是在线的,修改和增删都很方便,因此它的规模是动态的。它的规模通常以词语的条数以及由词语所表述的概念的条数计算。
2.1.5 关于事物的规定
(1) 所谓事物包含下列的概念类型:物质(包括有生命和无生命)、精神(包括情感、欲望、思想、经验)、时间、空间、事情以及它们的部件。这里应该强调说明的是知网中所描述的“事情”,实际上也是事件。
(2) 知网对于事物类概念的标注的规定较为琐细,不同类的概念有着不同的要求。大体上,应注意到两个方面,其一采用适合的标识符号;其二是多位标识之间的顺序。
(3) 当我们要标注某概念所具有的特定的属性值时可以将此属性值直接标注,而无须借助于任何标识符号。
男士: DEF=human|人,male|男
(4) 关于部件类概念的规定
第二位标识必须借助于“%”指明其所属的整体的类型,并尽可能标注它在整体中的部位或它的功能,如:
心脏: DEF=part|部件,%AnimalHuman|动物,heart|心
CPU: DEF=part|部件,%computer|电脑, heart|心
这样的标注意味着“心脏”和“CPU”的分别是“动物”和“电脑”的部件,同时“动物”和“电脑”又分别是“心脏”和“CPU”的整体。它们的功能都是整体的“心”。就常识而言如果“心”的功能受损,那么其整体的功能也必受损。这有助于推理。
(5) 当标注某一概念与事件之间的关系时,应遵循下列规定:
(a) 当此概念本身是事情时,其首位标识自然为“事情”,一般应在第二位上标注它应属于的事件的主要特征,无须借助于标识符号,如:
拔河:DEF=fact|事情,exercise|锻练,sport|体育
(b) 当此概念与事件之间存在一定的动态角色关系时,则必须借助于标识符号,如:
雇主: DEF=human|人,*employ|雇用
雇员: DEF=human|人,$employ|雇用
(c) 如果此概念与事件存在更复杂的动态角色关系时,则必须借助于多标识符号和多标识位,这时有顺序的要求,如:
洗衣机:DEF=tool|用具,*wash|洗涤,#clothing|衣物
上例中“洗涤”为“用具”的功能,或该“用具”用于“洗涤”,“衣物”借助于“#”表示其为“洗涤”的受事。他们之间的顺序是不可以颠倒的。又如:
熨斗: DEF=tool|用具,*AlterForm|变形状,#level|平
这里“平”是“变形状”的受事属性,这就是说,“变形状”的受事在接受了该事件之后,其属性将有变化,以至于获得一个“平”的属性值。
2.1.6 关于事件类概念
事件的主要特征可在《知网管理工具》中看到。其总数800以上,占整个知网特征总数的一半以上,足以见得事件类概念的重要以及知网对事件类概念的重视。上
首页
上一页
1
2
3
4
下一页
尾页
3
/4/4
相关论文
上一篇
:
《企业人事信息管理系统》
下一篇
:
ASP.NET;SQL酒店管理系统开发
推荐论文
本专业最新论文
Tags:
基于
知识库
的的
问答
系统
研究
【
返回顶部
】
相关栏目
自动化相关
计算机论文
工程管理论文
法律论文
医学论文
人力资源
电子专业
电气工程
英语论文
行政管理
电子商务
社科文学
教育论文
物流专业
金融专业
财务管理
会计专业
化学化工材料科学
电子通信
环境科学
经济类
机械模具类
报告,总结,申请书
其他专业论文