对比分析了几种Web页面结构分析和主题内容提取的方法,并在此基础上提出了——基于统计的方法和基于坐标树的 方法。基于统计的方法是一种简单而有效的方法,它从本质上抓住了网页的设计特征和HTML源代码的特征,通用性高。实验表明该方法切实可行,具有较高的准 确率。但该方法只对主题文字内容有效,对相关连接和相关图片等多媒体信息就显得力不从心。因此,本文又提出新型的基于坐标树的方法,该方法针对DOM缺乏 位置信息的不足,加入了坐标信息生成坐标树,并且还给出了能反映网页空间关系的图
相关文章:
对比分析了几种Web页面结构分析和主题内容提取的方法,并在此基础上提出了——基于统计的方法和基于坐标树的 方法。基于统计的方法是一种简单而有效的方法,它从本质上抓住了网页的设计特征和HTML源代码的特征,通用性高。实验表明该方法切实可行,具有较高的准 确率。但该方法只对主题文字内容有效,对相关连接和相关图片等多媒体信息就显得力不从心。因此,本文又提出新型的基于坐标树的方法,该方法针对DOM缺乏 位置信息的不足,加入了坐标信息生成坐标树,并且还给出了能反映网页空间关系的图
相关文章: