网站采集小体会

博客记录 | 2012-07-20 12:04:19 | 0 COMMENT

这几天用python采集了两个网站，一个国内的一个国外的。有点小体会，记录：前面已经写了一篇《今天采集某站数据经验总结》，是介绍国外网站的，今天再一起总结一下。 1、国内外网站html规范比较。国内代码写得很标准，class标签用的很多，想显示格式一样的数据，可能都采用后台一个for循环生成代码。冗余代码可以说没有。采集时不容易准确定位国外代码很乱，在标签中换行，各种空行，各种空格，还有你想不到的符号用来闭合标签。用的id属性很多，每个标签基本上都会有。定位容易，但是各种报错。 2、javascript比较。国内倾向于将javascript用于网站功能上，浏览器显示的代码和html源码相差不大。很方便找到关键字。国外界面显示代码很多是javascript修改的，但是你浏览器不启用js功能页面也不会有太大变化。需要保存源码，查看代码。 3、用urllib模块进行采集时，国内必须加入发送包头信息，但是这个很容易伪造浏览器信息，用处不大。我在第一次采集的时候，将提取url功能，提取产品列表功能，提取产品信息的功能分开写的，发生网络连接错误，提取url和产品列表都要重新获取，影响速度。第二次写，将总的url提取时，保存文件了。写第二个功能进行想要数据过滤时再读取文件进行过滤保存，后面再提取列表，保存都采用这种方式，会好一点。以后慢慢优化代码，写出个比较方便的工具，就是有时候特殊情况太多，工具代码的逻辑是死的，还是不方便。

上一篇: erlang基本语法学习笔记
下一篇: mysql图形化界面工具

Categories: 博客记录

网站采集小体会

相关文章：

0 Responses so far.

Leave a Reply