今天用python进行网站数据采集,该站主要有这么几种措施防止数据采集:
1、div标签不标准。闭合标签跑太远,导致采集不准确。
2、放置干扰字符。这种直接提示错误,没有办法采集。错误提示:'ascii' codec can't encode character u'\u3009' in position 5
解决方案:
第一种如果处理不好会带有许多原站信息,采用缩小div标签的范围,但是效果不明显。感觉用正则判断比较不错,但是又经常将标签前后放置很多空格和换行,还是很麻烦。
第二种,根据提示的字符,找到对应的字符“〉”,我到原文中搜索一看,差,震惊。竟然这么写的:“<p〉”。我是没有直接替换,采用保存到文件,然后手动修改,再读取文件处理。
上一篇: Beautiful Soup初探
下一篇: Erlang研究研究
0 Responses so far.