团购导航的实现(四)

最近几天重构了后端的蜘蛛,主要重写的地方是蜘蛛的工作流程、分析器的代码结构和工作流程 蜘蛛现在由一个deamon程序托管,生成两个子进程采集器、更新器 采集器每隔6个小时工作一次,采集新的团购产品回来,采集器在网页内容采集完成后,会自动调用分析器进行页面的分析并且将数据保存 更新器每隔30分钟工作一次,主要是用来更新未结束产品的已购买人数。

分析器的重构了基类和所有的子类,主要的变化在于将每个字段的解析独立成一个单独的方法,这样可以遇到相似的模板,可以提高代码重用性,并且在base中增加了一个test_parse来测试规则的可用性

目前来看,基本上算是完成了现阶段对蜘蛛的所有要求,接下来的工作重心在于增加足够多的网站模板丰富产品内容、前端展示的完善和新功能添加

先写这么多

Published: May 09 2011

blog comments powered by Disqus