网站采集小体会

这几天用python采集了两个网站,一个国内的一个国外的。有点小体会,记录: 前面已经写了一篇《今天采集某站数据经验总结》,是介绍国外网站的,今天再一起总结一下。 1、国内外网站html规范比较。 国内代码写得很标准,class标签用的很多,想显示格式一样的数据,可能都采用后台一个for循环生成代码。冗余代码可以说没有。采集时不容易准确定位 国外代码很乱,在标签中换行,各种空行,各种空格,还有你想不到的符号用来闭合标签。用的id属性很多,每个标签基本上都会有。定位容易,但是各种报错。 2、javascript比较。 国内倾向于将javascript用于网站功能上,浏览器显示的代码和html源码相差不大。很方便找到关键字。 国外界面显示代码很多是javascript修改的,但是你浏览器不启用js功能页面也不会有太大变化。需要保存源码,查看代码。 3、用urllib模块进行采集时,国内必须加入发送包头信息,但是这个很容易伪造浏览器信息,用处不大。   我在第一次采集的时候,将提取url功能,提取产品列表功能,提取产品信息的功能分开写的,发生网络连接错误,提取url和产品列表都要重新获取,影响速度。 第二次写,将总的url提取时,保存文件了。写第二个功能进行想要数据过滤时再读取文件进行过滤保存,后面再提取列表,保存都采用这种方式,会好一点。以后慢慢优化代码,写出个比较方便的工具,就是有时候特殊情况太多,工具代码的逻辑是死的,还是不方便。

上一篇:
下一篇:

相关文章:

Categories: 博客记录

0 Responses so far.

Leave a Reply