Web内容抽取及语义识别

对比分析了几种Web页面结构分析和主题内容提取的方法,并在此基础上提出了——基于统计的方法和基于坐标树的 方法。基于统计的方法是一种简单而有效的方法,它从本质上抓住了网页的设计特征和HTML源代码的特征,通用性高。实验表明该方法切实可行,具有较高的准 确率。但该方法只对主题文字内容有效,对相关连接和相关图片等多媒体信息就显得力不从心。因此,本文又提出新型的基于坐标树的方法,该方法针对DOM缺乏 位置信息的不足,加入了坐标信息生成坐标树,并且还给出了能反映网页空间关系的图

    分享到:

相关文章:

  1. 对cctv的态度
  2. 转:中国的论坛(BBS)文化
  3. 最佳的商业模式2(转)——电子商务的关键
  4. 最佳的商业模式1(转)——google的奥秘
  5. 谷歌手机地图3.2 版登陆,好玩的图层等你来玩(转)

Article written by xypcn

Leave a Reply

You must be logged in to post a comment.