免费获取| 娑撴挷绗熼崚妤勩€� 鐠佺儤鏋冩禒锝囨倞
论文天下网


閼奉亜濮╅崠锟� 濡€冲徔 閺堢儤顫� 閻㈤潧鐡� 闁矮淇� 閸斻劎鏁� 閼昏精顕㈢拋鐑樻瀮 瀹搞儳鈻肩粻锛勬倞 闁叉垼鐎虹拋鐑樻瀮 閺冨懏鐖剁粻锛勬倞 瀹搞儰绗熷銉р柤 閻㈢喓澧垮銉р柤 缂佹瑦甯撳纾嬵啈閺傦拷 鐟楀潡妫€涙€璍C 閸樺棗褰剁€涳拷 娑撳褰礟LC
閸楁洜澧栭張锟� 鐠愩垹濮� 娴兼俺顓� 濞夋洖绶� 鐞涘本鏂� 閻椻晝鎮� 閻椻晜绁︾拋鐑樻瀮 閻㈤潧鐡欓崯鍡楀 閸掓儼宓傚銉р柤 閸栧懓顥婂銉р柤 閸︾喐婀銉р柤 閺夋劖鏋$粔鎴濐劅 濮瑰顕㈢懛鈧拋鐑樻瀮 濞喲冾潒姒┊LC 閻㈤潧甯囩悰锟� 閺夊彞绗匬LC
鐠侊紕鐣婚張锟� 閸栨牕浼� 閺佹壆鏁� 瀹搞儱鏅� 妞嬬喎鎼� 瀵扮柉顕� 閸ュ€熼敜鐠佺儤鏋� 娴滃搫濮忕挧鍕爱 閺佹瑨鍋涚粻锛勬倞 娴溿倝鈧艾浼愮粙锟� 鐢倸婧€閽€銉╂敘 閸楁澘鍩涘銉р柤 閺堣櫣鏁告稉鈧担鎾冲 閺佺増甯剁拋鐑樻瀮 閸欐ḿ鏁哥粩锟� 閺傚洤瀵叉禍褌绗�

  • 论文天下网 |
  • 原创毕业论文 |
  • 论文范文 |
  • 论文下载 |
  • 计算机论文 |
  • 论文降重 |
  • 毕业论文 |
  • 外文翻译 |
  • 免费论文 |
  • 开题报告 |
  • 心得体会 |
瀵邦喕淇婇梿鍡氱閹广垹褰囩拋鐑樻瀮閿涘奔缍嗛懛锟�28娑擄拷 濮f洑绗熺拋鐑樻瀮韫囶偊鈧喖鐝拹銊╁櫤闂勫秹鍣� 婵″倷缍嶆宀冪槈鐠佺儤鏋冪純鎴犳畱閻喎鐤勯幀锟� 閺堫剛鐝拋鐑樻瀮娴犲绮涚拠瀛樻

当前位置:论文天下网 -> 计算机论文 -> 计算机论文
路鐢靛瓙鍟嗗姟鍘熷垱姣曚笟璁烘枃
路娉曞涓撲笟鍘熷垱姣曚笟璁烘枃
路鍦熸湪宸ョ▼鍘熷垱姣曚笟璁烘枃
路宸ュ晢绠$悊涓撲笟鍘熷垱璁烘枃
路鐢垫皵鑷姩鍖栧師鍒涙瘯涓氳鏂�
路姹夎瑷€鏂囧涓撲笟鍘熷垱璁烘枃
路浼氳涓撲笟鍘熷垱姣曚笟璁烘枃
路璁$畻鏈烘妧鏈師鍒涙瘯涓氳鏂�
路浜哄姏璧勬簮涓撲笟鍘熷垱姣曚笟璁烘枃
路甯傚満钀ラ攢涓撲笟鍘熷垱璁烘枃
路淇℃伅绠$悊涓撲笟鍘熷垱姣曚笟璁烘枃
路瀛﹀墠鏁欒偛涓撲笟鍘熷垱璁烘枃
路鏁欒偛绠$悊涓撲笟鍘熷垱璁烘枃
路灏忓鏁欒偛涓撲笟鍘熷垱璁烘枃
路搴旂敤蹇冪悊瀛︿笓涓氬師鍒涜鏂�
路鑻辫涓撲笟鍘熷垱璁烘枃
路鎾煶涓庝富鎸佸師鍒涙瘯涓氳鏂�
路琛屾斂绠$悊涓撲笟鍘熷垱璁烘枃
路骞挎挱鐢佃缂栧鍘熷垱姣曚笟璁烘枃
路鎽勫奖涓撲笟鍘熷垱姣曚笟璁烘枃
路骞垮憡瀛︿笓涓氬師鍒涙瘯涓氳鏂�
路鏂伴椈瀛︿笓涓氬師鍒涙瘯涓氳鏂�
路鏂囧寲浜т笟绠$悊鍘熷垱姣曚笟璁烘枃
路瑙嗚浼犺揪璁捐鍘熷垱姣曚笟璁烘枃
路琛ㄦ紨涓撲笟鍘熷垱姣曚笟璁烘枃
路鍔ㄧ敾涓撲笟鍘熷垱姣曚笟璁烘枃
路褰曢煶鑹烘湳鍘熷垱姣曚笟璁烘枃
路鎶ょ悊涓撲笟鍘熷垱姣曚笟璁烘枃
路閫氫俊宸ョ▼鍘熷垱姣曚笟璁烘枃
路閲戣瀺涓撲笟鍘熷垱姣曚笟璁烘枃

基于独立用户的聚类搜索引擎

本文ID:6668 字数:23141,页数:52

下载地址 全文下载链接(充值:¥60.00元) 

论文字数:23141,页数:52  有开题报告,任务书,实习报告

 摘   要
 互联网的迅速发展提供了越来越多的网络信息,为了快速检索到所需信息,搜索引擎成为不可或缺的网络应用工具之一。而现有的搜索引擎尽管采用了各种方法来提高检索结果的精度,仍无法排除检索结果中用户查询请求不相关的文档,而且相关文档和不相关文档仍然相互混杂,也给用户带来了额外负担。
 本文在对搜索引擎概况和聚类过程分析进行介绍的基础上,设计实现了一个基于聚类的独立用户搜索引擎,帮助Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档,通过将搜索引擎返回的结果进行聚类为若干个簇类,使得同一簇类内文档相关度尽可能的大,不同簇类间文档相关度尽可能的小,从而大大缩小用户所需浏览的结果数量,缩短用户查询所需要的时间。在系统的设计与实现时,对用户的每次独立搜索请求,我们都采用Yahoo提供的API接口来获取研究所需的源数据,采用倒排文件索引模型建立索引同时采用关键词语的方法表征索引,根据检索结果的标题、URL和网页摘要所含信息计算返回结果网页之间的相似性,并将检索结果以及它们之间的相似性关系映射到无向图,最后根据无向图中每个点的相似度进行聚类最终得到结果。在聚类过程中,本文提出了一种新的聚类方法,该方法首先随机选取几个点作为初时质心,然后依次计算剩余点与质心的相似度并决定是否将其加入某个簇。如果大于某个阀值则将其加入该质心所代表的类并调整质心的位置,直至加入全部的点。理论分析表明,系统采用的倒排文件模型需要较少的资源,所提出的聚类算法在一定程度上解决了文档多义性问题,同时系统对孤立点问题也进行了相应的处理。实验结果也表明,本文所提的聚类方法具有较好的效果,能对返回结果进行有效聚类。
 
关键词:搜索引擎,聚类,索引,相似度

Clustering Search Engine Based on Independent Users
 
 
 Abstract
 The rapid development of the Internet has provided more and more internet information. In order to search the required information rapidly, search engines have become one of the indispensable internet tools. Nowadays, although many search engine systems have been applying many methods to improve the retrieval precision, the retrieved results still include a lot of irrelevance documents mixing with the relevance ones, and it brings users an additional burden.
 Based on the profile of search engines and cluster analysis, the clustering search engine for the independent users is designed. It helps the web users choose required information from along list of returned snippets, clustering of the retrieved results will assign snippets to automatically groups based on calculating the similarity. The groups (clusters) formed should have a high degree of association between members of the same groups and a low degree between members of different groups. So the users can only view their interested groups and save much time. In the process of design and implementation, when a independent search request is send to the search engine, the Yahoo API is used to obtain the necessary research data sources in our system and inverted files indexing model is used to create index while using the key words denoting index. The similarity is calculated according to the title of retuned results, URL and summary in our system, then search results and their relationship of similarity are mapped to an undirected graph. Finally, the points of the undirected map are clustered according to the similarity of each point in the undirected map and the ultimate results are gotten.
 During the clustering process, a new clustering method is proposed. Firstly, the method randomly selects a few points as initial centers. Secondly, each point is gradually added one or several clusters based on re-calculation of the similarity between added point and each center. If the similarity is greater than predefined threshold, the point will be added some cluster, whose center are adjusted until adding all the points. Theoretic analysis shows that the used reverted file model in our system needs little resources and proposed clustering algorithm resolves the problem of . And the isolating point problem is also considered. Experimental results also show that the proposed method has better clustering performance and the returned results can be clustered effectively.
 

Key Words: Search Engine; Clustering; Index; Similarity

目   录
摘 要   I
ABSTRACT   II
插图索引  IV
附表索引  V
1. 绪 论 1
1.1 研究背景 1
1.2 研究概况 2
1.3 本文结构 3
2. 搜索引擎概述 5
2.1 搜索引擎的组成 5
2.1.1 Robot 5
2.1.2 分析器 6
2.1.3 索引器 6
2.1.4 检索器 6
2.1.5 用户接口 7
2.2 搜索引擎工作流程 7
2.3 搜索引擎分类 8
2.3.1 全文搜索引擎 8
2.3.2 目录索引搜索引擎 9
2.3.3 垂直搜索引擎 10
2.3.4 元搜索引擎 11
3. 聚类研究 13
3.1 文档自动分类 13
3.2聚类分析 13
3.3 基本聚类方法 14
3.3.1 平面划分方法 14
3.3.2 层次凝聚方法 16
3.4 网页聚类算法 19
3.4.1基于网页内容的聚类算法 19
3.4.2基于链接分析的聚类算法 20
3.4.3基于用户搜索日志的聚类算法 21
4. 聚类搜索引擎设计 23
4.1数据源预处理 23
4.2索引的建立 24
4.3相似度计算 28
4.4聚类处理 29
5.性能分析 35
5.1 理论分析 35
5.2 系统演示 36
总 结 39
致  谢 41
参考文献 43

相关论文
基于JAVA语言的仓库管理系统的设计与..
基于web的P2P金融网贷系统的开发和研究
基于SSH的企业人力资源管理系统设计与..
基于KKS码的知识图谱设备平台在电力企..
基于ASP.NET的人事管理系统
基于.NET的上海古镇旅游网站设计与实现
基于WEB办公自动化系统
璐㈠姟绠$悊 甯傚満钀ラ攢 骞煎効鏁欒偛 PLC 鍗曠墖鏈� 鏁欒偛 骞煎効鍥� 涓皬浼佷笟 鏁欏笀 鍐呴儴鎺у埗 宸ョ▼閫犱环 鐢靛瓙鍟嗗姟 PLC 鍙橀璋冮€� 渚涙按 绯荤粺 搴旂敤 鎺у埗 浜ゆ祦 鍙橀 鐢垫 璁捐 鐏伨 鑷姩 鎶ヨ绯荤粺 鍗曠墖鏈� 鐑熼浘 妫€娴� 绡悆 姣旇禌 璁℃椂鍣�  鑷姩鍞揣鏈� 鎺у埗绯荤粺 鐢电儹姘村櫒 娓╁害 寮傛鐢靛姩鏈� MATLAB 10kV 閰嶇數 绾胯矾 鎺у埗鍣� 鏅鸿兘浜ら€�  鏈哄簥  鏈烘鎵� 鍙樼數绔� 鍙樺帇鍣� 鑷姩鍖� 鍞揣鏈� 鑺辨牱鍠锋硥 绔嬩綋杞﹀簱 娲楄。鏈� 瑗块棬瀛怭LC 缁勬€佹帶鍒� 鎶㈢瓟鍣� 鏁版帶杞﹀簥 鑷杞� 閲岀▼ 杞﹂€� 瓒呭0娉� 娑蹭綅 浼犳劅鍣� 瀵嗙爜閿� 鏈烘瀯 鏁版帶婵€鍏� 鍒囧壊鏈鸿璁� 鍚庢墭鏋� 鍔犲伐宸ヨ壓 澶瑰叿璁捐 CA6140 浼犲姩杞� 娉ㄥ 妯″叿璁捐 娑插帇 椋庨櫓绠$悊 閾惰 绔炰簤鍔� 涓皬浼佷笟 鍐呴儴鎺у埗 鐘跺喌 璋冩煡鎶ュ憡 铻嶈祫 绠$悊 涓棿涓氬姟 瀹炰範鎶ュ憡 閲戣瀺 鐩戠 鍒跺害  鍐滄潙 鍏昏€佷繚闄� 鍚堜綔鍖荤枟 澶栬锤 鐞嗚储 瑙勫垝 缃戜笂閾惰 鍙戝睍鐜扮姸 涓汉鐞嗚储 浜烘皯甯� 鍗囧€� 
上一篇:龙岗区综合执法信息系统的设计实现 下一篇:虚拟现实技术在数字博物馆系统中..
推荐论文 本专业最新论文
基于微软的WF工作流平台的CRM系统的设..
基于Excel服务器的信息管理系统
基于SOA的国库会计账簿及报表系统
保护故障信息子系统在EMS系统中的设计..
论动漫对儿童的影响
论汽车点火系统计算机控制
论互联网的现状和发展趋势
基于微软的WF工作流平台的CRM系统的设..
本栏目为计算机相关毕业论文,需要购..
酒店服务信息管理系统的设计与实现
输电线路山火智能监测系统技术方案
计算机网络安全大事件分析及防范 (2)
药店进销存系统的设计与实现
网络在项目管理系统的应用
Tags:基于 独立 用户 搜索引擎 2010-04-28 14:57:27【返回顶部】

瀹㈡湇QQ:349991040鐐瑰嚮杩欓噷缁欐垜鍙戞秷鎭�

寰�   淇★細1 7 3 0 4 5 4 5

相关栏目

Delphi
ASP
VB
JSP
ASP.NET
VB.NET
java
VC
pb
VS
dreamweaver
c#.net
vf
VC++
计算机论文

PLC 变频调速 供水 系统 应用 控制 交流 变频 电梯 设计 火灾 自动 报警系统 单片机 烟雾 检测 篮球 比赛 计时器  自动售货机 控制系统 电热水器 温度 异步电动机 MATLAB 10kV 配电 线路 控制器 智能交通  机床  机械手 变电站 变压器 自动化 售货机 花样喷泉 立体车库 洗衣机 西门子PLC 组态控制 抢答器 数控车床 自行车 里程 车速 超声波 液位 传感器 密码锁 机构 数控激光 切割机设计 后托架 加工工艺 夹具设计 CA6140 传动轴 注塑 模具设计 液压
风险管理 银行 竞争力 中小企业 内部控制 状况 调查报告 融资 管理 中间业务 实习报告 金融 监管 制度  农村 养老保险 合作医疗 外贸 理财 规划 网上银行 发展现状 个人理财 人民币 升值

关于我们 | 联系方式 | 论文说明 | 网站地图 | 免费获取 | 钻石会员 | 原创毕业论文

 

论文天下网提供论文检测,论文降重,论文范文,论文排版,网站永久域名WWW.GEPUW.NET

本站部分文章来自网友投稿上传,如发现侵犯了您的版权,请联系指出,本站及时确认并删除  E-mail: 893628136@qq.com

Copyright@ 2009-2022 GEPUW.NET 论文天下网 版权所有