网页切片算法的若干问题
[[wiki]wiki[/wiki]][/wiki]这是我研究网页切片[wiki]算法[/wiki]的一个汇总想法。
之前我写过:一种面向搜索引擎的网页分块、切片的原理,实现和演示,随着工作的深入,逐渐碰到以下问题:
网页切片的粒度问题:
网页切片算法的目的不是精确找到所需要的内容,而是识别划分网页的各种功能区域,导航区,链接区,内容,页脚区和广告区等。
网页切片的网页[wiki]对象[/wiki]:
互连网纱功能的网页大概有2种[wiki]类[/wiki]型,目录型和内容型;随着搜索引擎的发展,[wiki]网站[/wiki][wiki]结构[/wiki]逐渐向扁平化的方向发展,车东 对此也做出了数据验证,而且随着[wiki]显示器[/wiki][wiki]分辨率[/wiki]的不断提高,内容和目录结合型的网页呈增加趋势,天极的网页涉及,可以说是其中的典范。
网页切片算法的对象应该是针对:内容型和内容目录混合型。对不同网页,应该有个识别算法,应该包括哪些[wiki]标准[/wiki]?
网页内容区最大范围识别:
从切片的粒度可以看出,应该把内容区作为一个部分单独切出来。根据一般的网页设计规律,一般有2种容纳内容区的方式:1、包含型(如blog ) 2、并列型(如bbs帖子)。
如果处理分页的内容型网页:
现在大多数网站为了改善用户体验和增加页面展示次数的需要,对网页做了分页处理,这部分需要设别出来。
无意间看到了:VIPS:基于视觉的Web页面分页算法 ,从[wiki]理论[/wiki]上证明了这种方法的可行性。可是实现起来有很多障碍,正如这位所说的:
我那天用浮动的 覽wiki]镁[/wiki]晕恢枚ㄎ淮