昨天登陆Google网站管理员工具,在故障诊断的抓取错误栏,Google告诉我https://www.cpplive.com/?feed=rss2跟https://www.cpplive.com/feed获取失败,前者的原因是受到robots.txt的限制,因为我在robots里添加了”Disallow:/?”,后者找了很久才发现是rss生成的格式不对。 阅读全文
五一最后一天,跟着了魔似的,一门心思宅在寝室整博客。好久没有现在这样的劲头了,跟去年天天在公司加班到很晚写Qt程序有得一拼。收获很多,页面基本汉化完毕,加了很多实用的插件,最关键的是优化了SEO,希望谷歌百度大哥能买我的帐吧。
以前就很关注网络爬虫这玩意儿,总觉得这里面技术含量比较高,对那些做网络爬虫的伙计尤为敬佩。SEO要做的就是帮我们勤劳的小爬虫指路,网站里一大堆文件,为了让小爬虫尽快找到有价值的网页信息,我们必须把网站目录下无关的文件告诉小爬虫,可是小爬虫不懂俺们人类的语言,自然得有一套规范的协议(小爬虫世界的语言)跟它们交流,这种语言便是robots语法,它依附于robots.txt文件。 阅读全文