今天采集某站数据经验总结

编程 | 2012-07-19 00:11:05 | 0 COMMENT

今天用python进行网站数据采集，该站主要有这么几种措施防止数据采集： 1、div标签不标准。闭合标签跑太远，导致采集不准确。 2、放置干扰字符。这种直接提示错误，没有办法采集。错误提示：'ascii' codec can't encode character u'\u3009' in position 5 解决方案：第一种如果处理不好会带有许多原站信息，采用缩小div标签的范围，但是效果不明显。感觉用正则判断比较不错，但是又经常将标签前后放置很多空格和换行，还是很麻烦。第二种，根据提示的字符，找到对应的字符“〉”，我到原文中搜索一看，差，震惊。竟然这么写的：“<p〉”。我是没有直接替换，采用保存到文件，然后手动修改，再读取文件处理。

上一篇: Beautiful Soup初探
下一篇: Erlang研究研究

Categories: 博客记录

今天采集某站数据经验总结

相关文章：

0 Responses so far.

Leave a Reply