昨天猜想Google保留了痕迹的时间是9月4日到9月14日之间。今天想到了网页快照后,才突然发现除此之外,有更精确的痕迹可循。

    今天早上起来,想看看昨天前天的博文有没有被收录了,仍然是没有。对Google什么时候肯来仍然迷惑中。



    照例“site:pickle.blog.edu.cn”,发现《“幼者听而弗问,学不躐等”解》一文是old.pickle.blog.edu.cn上的,想着很奇怪啊,那个早就不更新了,怎么还在呢?



    突然想到前几天谁说了一下网页快照的。自2002年以来,就没再用过网页快照了,来看看吧。发现此文快照居然是2009年9月9日GMT14:33:26保存的,并且说明当前网址可能已经改变内容。



    恍然,来一次,做一次快照,放到它的库里。有人搜索时,就给出网址和快照。看快照的,就是采集快照时间时的页面,看网址的,就是实时页面。如果是新的页面,它还没做过快照,那就没有页面网址可提供,也就没有实时页面或快照页面,结果就是搜索不到。这是搜索引擎最基本的原理,怎么现在才理解?



    啪嗒啪嗒开始看第一页的所有页面的快照时间,除了《“幼者听而弗问,学不躐等”解》外,都是新服务器上的文章评论,快照时间8月8日,8月27日,9月1日,9月4日,9月5日来了两次,9月6日来了一次,9月7日来了一次,此后再也没有来过。也就是说,最后一次更新文章是9月3日,恰巧被它9月4日来时发现了,于是它觉得有东西可录,紧接着来了好几次,结果一直都没有新的文章,失望之余,从7日到今天18日,再也不来了。



    所以更新博客的最佳时间是:发表的新文被收录了之后,紧接着发表新文。



    值得注意的是,这些新收录页面都是评论,大概是翻到第三页之后,才开始出现收录的文章页面的。可能是Google认为,对于博客来讲,文章的更新频率应该是不如评论的更新频率的。有价值的文章是“一石激起千层浪”,所以收录评论页面的频率应该比收录文章页面的频率更高。问题是我这博客一直都荒凉得如百草园,而且我写文的特点正如刀片兄所言,也根本不考虑是否要吸引人来跟进,只不过自己记日记罢了。别说换了新服务器后,跟过去的博友都断了联系。即使不这样,偶尔有人来看,也插不上话。所以Mr.bot同志,该失望了!



    从这个意思看,《“幼者听而弗问,学不躐等”解》这文的价值实在是高。旧服务器为了被挂木马,闹腾了将近一年,闹得教育人博客从车水马龙到门可罗雀,最后关门大吉。人都不来看了,Mr.bot同志居然在20009年9月9日这样近的时间仍然来光顾!而且模糊印象中,似乎以往site:pickle.blog.edu.cn时,此文也都是排在第一、第二这样的位置的。可见Mr.bot是经常来光顾它的。



    原来机器人一旦忠实起来,比人都忠实!