<datalist id="hzXeh"></datalist>
  • <fieldset id="hzXeh"><caption id="hzXeh"></caption></fieldset><video id="hzXeh"></video>
      <samp id="hzXeh"></samp><meter id="hzXeh"></meter>
      <canvas id="hzXeh"><del id="hzXeh"><keygen id="hzXeh"><embed id="hzXeh"><dl id="hzXeh"><p id="hzXeh"><param id="hzXeh"><table id="hzXeh"><keygen id="hzXeh"><ins id="hzXeh"></ins></keygen><link id="hzXeh"></link><col id="hzXeh"></col></table><acronym id="hzXeh"></acronym></param></p></dl></embed></keygen><q id="hzXeh"></q><span id="hzXeh"></span></del></canvas>
      <tbody id="hzXeh"></tbody>
    • 个人工具
      名字空间
      变换
      操作

      网页抓取

      来自兴华站长
      跳转到: 导航, 搜索

      网页抓取主要有三个方面:1、搜集新出现的网页;2、搜集那些在上次搜集后有改变的网页;3、发现自从上次搜集后已经不再存了的网页,并从库中删除。

      目录

      网页抓取的优先策略

      通常是尽可能的首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。

      什么是重要性高的网页呢,主要由这三个方面决定的:

      链接欢迎度

      链接欢迎度主要是由反向链接的数目和质量决定的。

      链接重要度

      链接重要度它是关于一个URL字符串的函数,仅仅考察字符串本身,它主要通过一些模式,如认为包含|“。com”,“HOME”的URL重要度高,以及包含较少斜杠的URL重要度高等。

      平均链接的深度

      平均链接的深度表示在一个种子站点集合中,每个种子站点如果存在一条链路到达该网页,那么平均链接深度又是该网页的一个链接指标,因为距离种子站点越近说明被访问的机会越多。

      相关条目

      参考来源

      留言