前端时间想写一个豆瓣小组的发言搜索,想法差不多了。但一直没动手,现在也不想做了,有时候突然来了兴趣,过几天就又感觉没意思了。
记录一下实现的想法:
三个表,一个用户表:豆瓣id
一个帖子表:id在url上,内容,用户id
一个回复表:id在代码里,内容,用户id
抓取的时候,注册一个用户,关注小组里边的所以小组,然后根据帖子的回复时间,进行不重复抓取。然后还有一个按小组来抓取所有当前时间以前的帖子。
这里还没想好刚创建的小组怎么获取,小组没有按时间判续的列表,没有好办法区分。
想想也不怎么现实,回复应该不知道多少亿条。。。。但是差不多可以完全抓取豆瓣小组的数据。
上一篇: django中使用mongodb
下一篇: sbcl的repl折腾一个比较完美的实现
0 Responses so far.