一个简单的分布式新浪微博爬虫

collector 2013-01-18 10:41

你好，之前我也写了功能简单的crawler，不过看到你这个，就小巫见大巫了。我有个问题，像你这样取数据的时候，如何设置访问新浪网站的时间，而不至于让新浪封IP呢？再一个，是否可以做个动态代理设置？谢谢。

秦续业 2013-01-18 11:12 作者

访问新浪微博的时间，我是在每两次访问之间插入了一个预设的值，目前默认是40s，还是蛮长的一个时间，在每两次访问之间是小于这个值的一个随机数。因为设置了间隔时间，所以抓取就会很慢，目前还是以爬虫的数量取胜。
设置代理是个不错的方法。我相信只需要简单修改代码就可以做到。一个crawler获取网页都是通过一个fetcher获取的，因此，只需在一个Fetcher类初始化的时候设置相关的ProxyHandler即可。

collector 2013-01-19 17:03

谢谢你的答复。

collector 2013-01-23 11:12

你能给我发份儿WeiboCrawler的一些图（https://bitbucket.org/chineking/weibocrawler/downloads），我这边down不下来。谢谢。

秦续业 2013-01-23 14:12 作者

我也听到有反馈说看不了图。
我把wiki里的图都上传到我的博客空间里了，现在看wiki应该能看到图了。

collector 2013-01-24 08:52

我在单机模式的时候python __init__.py -m sg -t file -l ./ uid的时候，会出现下面这个错误：
Traceback (most recent call last):
File "__init__.py", line 11, in <module>
from WeiboCrawler.crawler import UserCrawler
ImportError: No module named WeiboCrawler.crawler

怎么解决？

另一个是，-t mongo时，数据存在数据库哪儿的，怎么能取出来呢？

谢谢。

秦续业 2013-01-24 13:11 作者

主要是由于sys.path中没有添加WeiboCrawler的原因。
简单的做法是在site-packages中添加（site-packages因系统而异，如果是windows，假设python装在C:\python27，那么就是C:\python27\Lib\site-packages；如果是linux，那么应该是/usr/local/lib/pythonX.X/dist-packages）。

假设根目录是在/my/path/weibocrawler，下面有intro.py、WeiboCrawler文件夹等等，那么就在site-packages下新建一个WeiboCrawler.pth文件，里面写上路径：/my/path/weibocrawler。

再次运行命令应该就可以了。

关于Mongo的问题，当时时间仓促，其实具体存放在哪个数据库应该写在settings里。
现在在MongoStorage的__init__中可以找到：self.db = self.connection.tfidf，可以看到数据是在“tfidf”这个db里。
你可以作修改。

collector 2013-01-24 16:37

哇，不容易啊，终于让她跑起来了。有几个问题：（环境，一台pc－linux，一个sch, 一个mnt,一个crw）
1、在crw的输出上有：
fetch login.
login success!
fetch login.
login success!
fetch login.
login success!
和
fetch login.
fetch login.
login success!
fetch login.
login success!
login success!
怎么理解？

2、看你的wiki那个，有个web的console，这个咋配置出来的？

谢谢。

秦续业 2013-01-24 16:42 作者

1、由于新浪微博最近做了改动，代码也相应做了变化，详见commit：https://bitbucket.org/chineking/weibocrawler/commits/dfe49c470e0a4b7a183f5cb31c8ac9e9

把代码更新到最新就可以了。

2、web界面需要在分布式模式下启动Monitor，要安装tornado。（easy_install tornado）

collector 2013-01-24 17:06

谢谢你的回复。

1、已经更新到最新的代码，但还是出现了同样的问题。

2、已经安装了tornado，没跑出来，是不是还要配置下什么哦？

3、你wiki里写了kill掉进程或者uers都fetch完才能结束，那个fetch掉所有的用户，是说初始用户及其粉丝？

谢谢。

秦续业 2013-01-24 17:10 作者

1、settings有设置吗？在WeiboCrawler下的settings.py有配置新浪微博的用户名和密码没？

2、如果Scheduler、Monitor和WeiboCrawler都是在单机上配置项改动的不多。但是还是看一下在每个下面的settings里有什么没配置的么？

如果是分布式模式，需要在Scheduler/settings.py里starts_uids里写出是要爬的微博uid。

Web界面是由Monitor控制的，默认是http://localhost:8888

collector 2013-01-24 17:55

在三个目录下分别配置了local_setting.py的。

秦续业 2013-01-24 17:59 作者

还有一个可能是你在登录新浪微博的时候需要输验证码吗？如果要，那肯定是不行的。解决办法是在新浪微博安全设置里添加登录地点。

collector 2013-01-24 18:18

没有设置登录在验证码。

秦续业 2013-01-24 18:20 作者

那现在到底行不行？

collector 2013-01-24 18:26

还是有之前的那种问题，是这个样子的：
fetch login.
fetch login.
login success!
login success!
fetch url: http://weibo.cn/1750628951?vt=4&gsid=3_58a0350433338419b1547e015dc65f3982460df5/info
fetch url: http://weibo.cn/1750628965?vt=4&gsid=3_58a0350433338419b1547e015dc65f3982460df5/info
fetch login.
fetch login.
login success!
login success!

取一会儿数据后，又有一个新问题出来了，我在web console上看到的18个users要fetch,只finished了一个,但是在sch输出：
timestamp: 1359023739
Waiting for connection
Connected from: ('127.0.0.1', 56924)
sending data: null
timestamp: 1359023754
Waiting for connection
Connected from: ('127.0.0.1', 56934)
sending data: null
timestamp: 1359023769
Waiting for connection
Connected from: ('127.0.0.1', 56935)
sending data: null
timestamp: 1359023784
Waiting for connection

crw一直没有输出

秦续业 2013-01-24 18:27 作者

QQ联系吧……344861256

roshan 2016-12-20 21:59

登录地点现在可以设置吗？在微博账号安全里没有找到

collector 2013-01-24 17:09

还有个比较郁闷的问题，
她在跑的时候，在浏览器里输入了，127.0.0.1:1124，然后出来
Exception in thread Thread-1:
Traceback (most recent call last):
File "/usr/lib/python2.7/threading.py", line 551, in __bootstrap_inner
self.run()
File "/usr/lib/python2.7/threading.py", line 504, in run
self.__target(*self.__args, **self.__kwargs)
File "/home/sunxian/workspace/SentiProject/DataCollection/weibocrawler/Scheduler/__init__.py", line 32, in action
data = json.loads(data)
File "/usr/lib/python2.7/json/__init__.py", line 326, in loads
return _default_decoder.decode(s)
File "/usr/lib/python2.7/json/decoder.py", line 366, in decode
obj, end = self.raw_decode(s, idx=_w(s, 0).end())
File "/usr/lib/python2.7/json/decoder.py", line 384, in raw_decode
raise ValueError("No JSON object could be decoded")
ValueError: No JSON object could be decoded

程序再也不能取数据了，就卡死在那儿了。

dan 2013-01-30 01:03

尝试了单机模式，提示错误如下：
error: argument uids: invalid int value: '273\\Projects\\Web'
这是什么意思呢？uid参数不对吗？

秦续业 2013-01-30 01:06 作者

这个地方必须是一个用户的UID号。

dan 2013-01-30 01:12

uid 参数那里确实输入了用户的UID号（我认为）。UID就是每个用户的单独识别身份的那串数字吧？

秦续业 2013-01-30 01:14 作者

是的，但是从上面的例子看，确实是uid错误。
把完整输的命令贴出来看看。

dan 2013-01-30 01:20

python __init__.py -m sg -t file -l C:\
r\Weibo Crawler\Data 2462086954

多谢！

秦续业 2013-01-30 01:22 作者

……
路径中有空格，用引号引起来路径，或者修改路径吧……

dan 2013-01-30 01:37

非常多谢。修改了路径，这次的报错是：

cookielib.LoadError: 'C:\....\WeiboCrawler\cookies.txt' does not look like a Set-Cookie3 (LWP) form at file

这是为什么呢？

dan 2013-01-30 01:43

完整报错代码在这里：
File "C:\Documents\Program\Python273\lib\_LWPCookieJar.py", line 98, in _reall
y_load
raise LoadError(msg)
cookielib.LoadError: 'C:\\Documents\\Program\\Python273\\Projects\\Crawler\\Weib
oCrawler\\WeiboCrawler\\cookies.txt' does not look like a Set-Cookie3 (LWP) form
at file

多谢！

秦续业 2013-01-30 05:17 作者

似乎是cookie文件的问题，把cookies.txt文件删除掉再运行试试。

dan 2013-01-30 09:46

File "c:\Documents\Program\Python273\Projects\Crawler\WeiboCrawler\WeiboCrawle
r\fetcher.py", line 180, in login
self.fetch_params = urldecode(link['u'])
KeyError: 'u'

请问这个错误代码是什么意思呢？

秦续业 2013-01-30 14:42 作者

这错误哪儿出来的啊，没听谁说过。方便加QQ说么？号码上面评论有。

阿信 2013-02-05 10:05

好厉害呀，我不懂~~~

老刘 2013-02-27 00:25

博主你好，我也遇到'/cookies.txt' does not look like a Set-Cookie3 (LWP) format file
的问题，我的python版本是2.72，tornado2.4.1。删除文件也不行呢

秦续业 2013-02-27 12:56 作者

看起来似乎没有问题，把WeiboCrawler/cookies.txt文件删掉再运行还不行么？

老刘 2013-02-27 15:54

谢谢。之前用单机重新部署了分布式，发现删除了cookies.txt文件可以成功登陆，刚刚开始研究，熟悉后再交流

BinGo 2013-03-04 20:53

请教博主一个问题。我需要的功能没有这么复杂。我的任务是每次在“微博搜索”里，不断用不同的关键字搜索，然后抓取搜索结果页面。

我遇到的问题是，我搜索多次之后经常会遇到要输入验证码。请问博主，有没有办法避免这个验证码？

秦续业 2013-03-04 22:06 作者

如果是出来验证码那不太好办了，除非可以用更换IP之类的方法试试。

BinGo 2013-03-05 10:01

好的，谢谢你。

pingguo 2013-03-11 00:03

你好！抓取的时间间隔可以设置吗？在哪儿设？

才抓了一万多个评论就被封了。郁闷啊

pingguo 2013-03-11 00:05

是userticket吗？设置成多少比较合适啊？

秦续业 2013-03-11 00:17 作者

这个是我的失误，应该在配置文件里面设置的。
在WeiboCrawler/crawler.py下的Crawler类有个方法_get_random_sec，maximum参数可以修改最大间隔时间，默认是40s。当时我们也会出现被封的情况，但是过段时间会恢复。

孤独的战神 2013-03-11 10:12

您好，我没学过这些东西，但是我也有类似的需求，我想问一下，我安装了setuptools，找不到在哪里，怎么用他来安装pymongo？

秦续业 2013-03-11 10:57 作者

运行命令easy_install pymongo即可

孤独的战神 2013-03-11 13:41

恩，easy_install pyquery 会报错，进入到weibocrawler文件夹后，运行命令 python __init__.py -m sg -t file -l e:\WeiboCrawler\data UID
会提示 python:can't open file '__init__.py': [Errno 2] No such file or directory，请教下怎么解决

秦续业 2013-03-11 13:47 作者

目录错了吧，是在weibocrawler项目目录下的WeiboCrawler文件夹下运行命令。

孤独的战神 2013-03-11 13:55

好像没有吧，我是跟你的相似的，WeiboCrawler文件夹下面有一个WeiboCrawlerEXE文件夹再下面有一个WeiboCrawler子文件夹，这个文件夹下面存在 __init__.py文件

秦续业 2013-03-11 14:10 作者

那就是这个目录。

孤独的战神 2013-03-11 19:53

感谢啦，单机上面我已经跑通了，我想问问，分布式的情况下，是把weiboCrawler项目复制俩份，还是最里面的那个weiboCrawler文件夹复制俩份，你文档里面写的weiboCrawlerIDE是怎么来的？还有setting.py是重命名为local_setting.py还是setting.py跟local_setting.py都存在，他会默认去找local_setting.py?

秦续业 2013-03-11 23:50 作者

把项目复制两份；我的文档里没提到weiboCrawlerIDE呀；local_settings.py和settings.py都存在，前者中的设置会覆盖后者的。

孤独的战神 2013-03-11 13:42

easy_install pyquery 的错误我已经解决了，
刚刚回复的是最后一步运行报的错

liang 2013-03-18 16:16

login 的整个交互过程是怎样分析出来的？

秦续业 2013-03-18 17:20 作者

不好意思，这块我是参考的别人的。

Winnie 2013-04-04 10:22

你好！
我在尝试跑单机模式是能够跑通的这样
user@CU-CS-VM:~/weibocrawler/WeiboCrawler$ python __init__.py -m sg -t file -l /home/user/weibocrawler/data 1776569733
fetch url: http://www.weibo.com/u/1776569733
login success!

之后是weibo info文件都是空的是不是因为 __init__.py 的 local 函数没有调用 crawler.run() 呢？
我刚刚开始看代码还不是很明白 parser storage crawler 之间的关系请您大概讲一下
多谢！

秦续业 2013-04-04 12:19 作者

首先代码这两天做了很小的改动，所以确保更新到最新的代码。

然后删除WeiboCrawler下的cookies.txt，重新运行，看看是不是还是空的。

如果为空，那么，看看WeiboCrawler下的crawler.log文件，当中是不是有pyquery的报错。如果是那么就是pyquery的问题。原因是其依赖的一个包过新。
解决办法：用easy_install卸载cssselect和pyquery。（命令可能是easy_install -m ***，或者easy_install -mxN ***，视其版本而定）
然后重新安装cssselect为0.7.1版本、pyquery为1.2.1版本：easy_install cssselect==0.7.1，pyquery同。

至于parser storage crawler的关系，我记得项目wiki中有比较详细的介绍，你先看看那块。

Qi 2013-04-18 11:00

博主你好~前几天下载了你写的微博抓取程序，在运行的时候一直抓取不了，crawler端的信息如下：
fetch url: http://weibo.cn/u/1728468643
login success!
start to fetch 1728468643's fans
fetch url: http://weibo.cn/1728468643/fans
fetch url: http://weibo.cn/u/1728468643
fetch url: http://weibo.cn/sinaurl
start to fetch 1728468643's info
fetch url: http://weibo.cn/1728468643/info
start to fetch 1728468643's weibo
fetch url: http://weibo.cn/u/1728468643
login success!
fetch url: http://weibo.cn/u/1728468643?page=2&vt=4&gsid=3_5bc7d744f6d8be1c25ed
96ed71000503c89e9f0d001d87&st=0771
fetch url: http://weibo.cn/sinaurl
login success!
------------------------
Schedule端信息：
Waiting for connection
Connected from: ('127.0.0.1', 1052)
sending data: {"is_uid": true, "user": "1728468643"}
timestamp: 1366253614
Waiting for connection
Connected from: ('127.0.0.1', 1062)
sending data: {"is_uid": true, "user": "1728468643"}
timestamp: 1366253615
Waiting for connection
Connected from: ('127.0.0.1', 1070)
sending data: {"is_uid": false, "follow": "1728468643", "user": "sinaurl", "cra
wled": false}
timestamp: 1366253616
Waiting for connection

-------------------------
烦请博主帮忙看看这是什么原因呢？太感谢了~~~~

秦续业 2013-04-18 11:02 作者

单机模式时爬成功没？

Qi 2013-04-18 12:13

楼主太及时了~多谢多谢~试了一下，能抓取，但比较奇怪的是很快就停了，info.txt和users.txt都是空的，weibos.txt只抓取了网页中一页的微博，completes.txt里面只有一个uid。我一共设置了2个uid，每个文件夹下都是上述情况。

秦续业 2013-04-18 12:30 作者

代码是最新的吗？更新到最新的代码再试试。

Qi 2013-04-18 13:48

前两天下载的，对比了一下应该是最新的，看了上面你给别人回复的说明，我的crawler.log里没有pyquery的报错。里面的信息是这样的：
2013-04-18 13:43:13,967 - crawler.__init__.38 - INFO - fetch user: 1563926367
2013-04-18 13:43:14,319 - crawler.__init__.38 - INFO - fetch user: 2234552124

命令行里的信息是这样的：
>python c:\weibocrawler\WeiboCrawler\__init__.py -m sg -t file -l
c:\data 2234552124 1563926367
login success!
fetch url: http://weibo.cn/u/1563926367
start to fetch 1563926367's info
fetch url: fetch url: http://weibo.cn/u/2234552124
http://weibo.cn/1563926367/info
start to fetch 1563926367's weibo
fetch url: http://weibo.cn/u/1563926367
fetch url: http://weibo.cn/u/1563926367?page=2&vt=4&gsid=3_5bc7d744f6d8be1c25ed
96ed71000503c89e9f0d001d87&st=0771
start to fetch 2234552124's info
fetch url: http://weibo.cn/2234552124/info
start to fetch 2234552124's weibo
fetch url: http://weibo.cn/u/2234552124
fetch url: http://weibo.cn/u/2234552124?page=2&vt=4&gsid=3_5bc7d744f6d8be1c25ed
96ed71000503c89e9f0d001d87&st=0771

秦续业 2013-04-18 13:53 作者

最新的回复里看起来已经是在爬了啊，你看看文件夹里是不是还是空。
下次抓取前把数据文件、还有cookies.txt都删除了看看还能不能抓取。

Qi 2013-04-18 13:58

恩~是在爬，可是只爬第一页就断开了，info.txt和users.txt也还都是空的，weibos.txt里面有8条数据。。。哎。。。好奇怪。。。

秦续业 2013-04-18 14:08 作者

我知道原因了。还是因为登录的问题。实际上没有登录成功（因为登录成功一次是能取到20条微博的，且查看用户的info等等都需要登录才取得到）。

确保用户名和密码正确，配置文件里写的是用户名和密码，前者不是UID。其次，检查你的帐号登录是否需要验证码，如果需要，那就去掉验证码登录（通过添加登录地点解决）。
先看看以上方法是否可行。

Qi 2013-04-18 15:13

果然是没有登录上的原因，我换了一个账号，这次可以了！！多谢博主~~~
又试了一下分布式的，起初不行，后来第三次又可以了~

pdr 2013-10-23 22:44

你跑成功了啊，我遇到个问题： Please check the account and password in local settings or ensure your login need no validate code!意思应该是需要验证码，楼主说可以通过添加登陆地点解决，想问下怎么回事

morige1201 2013-05-13 14:18

博主你好,前几天下载了你写的微博抓取程序，在运行的时候一直抓取不了,单机模式运行出错
问题如下：
2013-05-02 15:36:50,551 - crawler.__init__.38 - INFO - fetch user: 2786260755
2013-05-02 15:37:14,637 - crawler.run.214 - INFO - error when crawl: 2786260755
2013-05-02 15:37:14,638 - log.exception.22 - ERROR - 'XPathExpr' object has no attribute 'add_post_condition'
请问这是什么错误？

秦续业 2013-05-13 14:23 作者

还是pyquery的问题，pyquery使用了cssselect包，但是cssselect包过新会导致pyquery出错。

解决办法：用easy_install卸载cssselect和pyquery。（命令可能是easy_install -m ***，或者easy_install -mxN ***，视其版本而定）
然后重新安装cssselect为0.7.1版本、pyquery为1.2.1版本：easy_install cssselect==0.7.1，pyquery同。

最后删除掉WeiboCrawler文件夹下的cookies.txt，以及抓取的目标文件夹下所有内容。重新运行看看是否可以。

morige1201 2013-05-13 14:43

换了版本，已经ok了

啊咔 2013-05-19 20:19

博主你好，我运行单机file模式调通了爬下来的数据是空的，试了两个UID 结果weibo user info 三个TXT都是空的，只有ERROR或complete文档中有个UID号，能告诉我为什么会这样么

秦续业 2013-05-19 20:27 作者

wiki页面上有个Q&A的部分有解决办法，试试看。

啊咔 2013-05-19 21:04

谢谢已经参照Q&A重新装了pyquery和cssselect，weibo信息已经可以获取，但是user仍然为空正常么

秦续业 2013-05-19 21:06 作者

单机模式下默认不抓取用户的，所以users.txt为空是对的，可以修改源码。

hahazhu 2013-06-05 23:01

能否介绍下mongodb的安装配置？我目前在使用分布式爬虫时，运行python intro.py sch 就显示 waiting for connection,卡死在这里了.

秦续业 2013-06-07 15:08 作者

显示waiting for connection是对的，这说明在等待worker连接。和mongo没啥关系。

炎龙 2013-07-01 11:00

请教，cola 下测试weibo功能，为何显示urlError （Temporary failure in name resolution）？

秦续业 2013-07-01 14:59 作者

配置文件里的uid是一串数字，输对了吗？

炎龙 2013-07-02 09:44

是的，我确定uid是正确的，看错误是由依赖包中出来的，也就是对URL的解析判断上认为URL有问题。我进代码跟了一下，就在job启动run（）函数执行时，出的问题。这个内部我不清楚有什么问题。

秦续业 2013-07-02 10:01 作者

能把完整的错误输出发送到我邮箱么，qin@qinxuye.me

HOPEver 2013-07-11 20:44

楼主你好，我在单机下运行，但是一直提示"cola.worker.loader.JobWorkerRunning: There has been a running job worker."，然后我掉用"python stop.py"命令，结果提示"cannot connect to single running worker"，不知道为什么，是配置的问题吗？

秦续业 2013-07-11 21:14 作者

之前已经非法退出了，再stop肯定不存在。
可以尝试删除掉项目目录下data下东西，然后再运行试试。

HOPEver 2013-07-12 10:42

我把工程重新解压了一遍就好了，谢谢博主！

HOPEver 2013-07-18 19:27

楼主你好，这个爬虫爬微博内容时候的url比较奇怪，不是我们平常刷微博时的url，而且通过这个url可以把当前页面的所有微博都可以得到，包括底部动态加载的内容，请问楼主是怎么得到这个url的表示方式的？我们现在试图想爬其他内容，因为有滑动到底部动态加载的内容而无法获得全部的数据，请问如何解决？

HOPEver 2013-07-18 19:29

'http://weibo.com/aj/mblog/mbloglist?uid=%s&_k=%s' % (self.uid, start),就是这个url，请问楼主如何获得这种表示方式的。这种url得到的不是具体页面，而是源代码，不知何故。

秦续业 2013-07-20 22:50 作者

这个URL是通过分析AJAX得到的，chrome调试可以看到。

而如果你看过微博的源代码，就会发现内容不是写在HTML中的，而是写在JS中。所以即便打开原文件，还是要分析JS代码。

HOPEver 2013-07-21 11:16

谢谢楼主！另外还想请教一个问题，为什么程序每次都是跑得好好的就进行不下去了或者自己终止退出了呢？

秦续业 2013-07-21 11:41 作者

终止退出应该有错误信息吧？
把错误信息贴出来看看

lijun 2013-07-30 15:40

我想的是，
1.如果clawers宕掉了，其上的工作会丢丢失麽
2.如果scheduler宕掉了，是不是整个集群都会瘫痪，有没有热切换之类的功能
3.scheduler能保证clawer的负载均衡麽

好人平安 2013-08-15 11:15

楼主你好!
在单机模式下运行最近的代码,为什么会出现这个错误!
File "__init__.py", line 30, in <module>
from parsers import MicroBlogParser, ForwardCommentLikeParser,\
File "/home/zhengweiwei/cola/contrib/weibo/parsers.py", line 37, in <module>
from storage import DoesNotExist, Q, WeiboUser, Friend,\
File "/home/zhengweiwei/cola/contrib/weibo/storage.py", line 25, in <module>
from conf import mongo_host, mongo_port, db_name, shard_key
File "/home/zhengweiwei/cola/contrib/weibo/conf.py", line 39, in <module>
shard_key = user_config.job.mongo.shard_key
AttributeError: 'PropertyObject' object has no attribute 'shard_key'

beanmoon 2013-08-28 12:05

由于我也想做一个个人博客，想问下博主，你的网站是托管在什么上面的，一年托管费多少？

line 2013-09-01 10:14

楼主你好!
是不是近期新浪微博的源码有改动？为什么之前都能够正常抓取的东西,现在运行的时候就会出现一些错误？

秦续业 2013-09-01 10:27 作者

今天我会看一下什么问题。

fanneee 2013-09-04 11:53

楼主你好，运行新浪微博单机版时，出现如下错误，还请楼主不吝赐教。
Error when fetch url: http://weibo.com/1651972952/follow
Error when get bundle: 1651972952
'NoneType' object has no attribute 'find'
Traceback (most recent call last):
File "E:\cola-master\cola-master\contrib\weibo\cola\worker\loader.py", line 20
2, in _execute_bundle
next_urls, bundles = parser_cls(opener, url, bundle=bundle, logger=self.logg
er, **options).parse()
File "E:\cola-master\cola-master\contrib\weibo\parsers.py", line 541, in parse

return self._error(url, e)
File "E:\cola-master\cola-master\contrib\weibo\parsers.py", line 87, in _error

raise e
AttributeError: 'NoneType' object has no attribute 'find'

fanneee 2013-09-04 12:08

楼主你好，我运行了单机版的新浪微博出现如下错误
Error when fetch url: http://weibo.com/1651972952/follow
Error when get bundle: 1651972952
'NoneType' object has no attribute 'find'
Traceback (most recent call last):
File "E:\cola-master\cola-master\contrib\weibo\cola\worker\loader.py", line 20
2, in _execute_bundle
next_urls, bundles = parser_cls(opener, url, bundle=bundle, logger=self.logg
er, **options).parse()
File "E:\cola-master\cola-master\contrib\weibo\parsers.py", line 541, in parse

return self._error(url, e)
File "E:\cola-master\cola-master\contrib\weibo\parsers.py", line 87, in _error

raise e
AttributeError: 'NoneType' object has no attribute 'find'
我的配置
job:
db: sina
mode: bundle # also can be `bundle`
size: 100 # the destination (including bundle or url) size
limit: 0 # 0 means no restrictions, if greater than 0, means webpages opened per minute.
master_port: 12104
port: 12105
instances: 2
mongo:
host: localhost
port: 27017
login:
- username: fanneee@163.com
password: 2546162
starts:
- uid: 3211200050
- uid: 1898353550
fetch:
forward: no
comment: no
like: no

秦续业 2013-09-04 13:24 作者

这个问题昨天应该被修复了，更新下代码再试试。

lee 2013-09-11 09:55

Traceback (most recent call last):
File "I:\cola-master\contrib\weibo\__init__.py", line 58, in <module>
load_job(os.path.dirname(os.path.abspath(__file__)))
File "I:\cola-master\cola\worker\loader.py", line 446, in load_job
with StandaloneWorkerJobLoader(job, root, force=force) as job_loader:
File "I:\cola-master\cola\worker\loader.py", line 329, in __init__
local=local, nodes=nodes, copies=copies, force=force)
File "I:\cola-master\cola\worker\loader.py", line 83, in __init__
self.check()
File "I:\cola-master\cola\worker\loader.py", line 131, in check
raise JobWorkerRunning('There has been a running job worker.')
cola.worker.loader.JobWorkerRunning: There has been a running job worker.
[Finished in 0.4s with exit code 1]

博主你好我运行单机模式时出现上述问题。
代码成功运行过一次但STOP后再运行就出现如上错误。能帮忙分析下问题么？
新人提问还请楼主赐教。

ypengh 2013-09-16 16:30

你好，还想问为什么在单机模式下运行只有保存的用户的id，而其它信息没有。
另外，在运行的时候有抛出以下异常
Error when fetch url: http://weibo.com/2314239521/follow
Error when get bundle: 2314239521
No JSON object could be decoded
Traceback (most recent call last):
File "/home/chenshunhua/Program Files/crawler/cola-master/cola/worker/loader.py", line 206, in _execute_bundle
**options).parse()
File "/home/chenshunhua/Program Files/crawler/cola-master/contrib/weibo/parsers.py", line 520, in parse
return self._error(url, e)
File "/home/chenshunhua/Program Files/crawler/cola-master/contrib/weibo/parsers.py", line 87, in _error
raise e
ValueError: No JSON object could be decoded

line 2013-09-16 16:42

楼主你好,代码更新到最新还是会出现更新之前的问题.只能解析公共主页的微博信息,不能解析个人的! 麻烦楼主再看看什么问题?

fiance 2013-10-01 16:48

执行 python intro.py crw 后，出现

File "intro.py", line 28, in <module>
import WeiboCrawler
File "/home/me/WeiboCrawler/WeiboCrawler/__init__.py", line 11, in <module>
from WeiboCrawler.crawler import UserCrawler
File "/home/me/WeiboCrawler/WeiboCrawler/crawler.py", line 16, in <module>
from WeiboCrawler.parser import CnWeiboParser, CnInfoParser, CnRelationshipParser,\
File "/home/me/WeiboCrawler/WeiboCrawler/parser.py", line 15, in <module>
from pyquery import PyQuery as pq
File "/usr/lib/python2.7/site-packages/pyquery/__init__.py", line 10, in <module>
from pyquery import PyQuery
File "/usr/lib/python2.7/site-packages/pyquery/pyquery.py", line 6, in <module>
from cssselectpatch import selector_to_xpath
File "/usr/lib/python2.7/site-packages/pyquery/cssselectpatch.py", line 6, in <module>
from lxml.cssselect import Pseudo, XPathExpr, XPathExprOr, Function, css_to_xpath, Element
ImportError: cannot import name Pseudo

在网上没有搜出最后一样的问题，请问这是一类什么问题，如何解决呢？谢谢。

浩 2014-08-15 15:35

版本错误，装lxml 2.3

yjf 2013-10-08 17:55

F:\pythonLearning\cola-master\cola\core\opener.py:74: UserWarning: gzip transfer
encoding is experimental!
self.browser.set_handle_gzip(True)
start to get None
start to get None

这是怎么回事啊？为什么全是None？

line 2013-10-16 15:28

楼主好久没更新博客了....

pdr 2013-10-23 22:12

Please check the account and password in local settings or ensure your login need no validate code! 想问一下如何解决验证码问题

JiaoyanChen 2013-11-11 20:19

博主，好，非常感谢你的工作。
但是我在fedora/centos下面运行colar的时，出现下面错误：
[root@localhost weibo]# python __init__.py
Traceback (most recent call last):
File "__init__.py", line 58, in <module>
load_job(os.path.dirname(os.path.abspath(__file__)))
File "/home/jychen/weibo/cola-master/cola/worker/loader.py", line 446, in load_job
with StandaloneWorkerJobLoader(job, root, force=force) as job_loader:
File "/home/jychen/weibo/cola-master/cola/worker/loader.py", line 329, in __init__
local=local, nodes=nodes, copies=copies, force=force)
File "/home/jychen/weibo/cola-master/cola/worker/loader.py", line 83, in __init__
self.check()
File "/home/jychen/weibo/cola-master/cola/worker/loader.py", line 131, in check
raise JobWorkerRunning('There has been a running job worker.')
cola.worker.loader.JobWorkerRunning: There has been a running job worker.

上面也有评论提到了这个问题，为什么程序会一直提示有一个jor worker?
谢谢。

winner24 2013-12-23 18:32

您好，我最近在做一个研究，需要微博中用户的转发关系图，找出找出某个消息的传播有向图G(V, E)，请问运用这个能实现吗？

秦续业 2013-12-23 19:42 作者

这个可以呀。

winner24 2013-12-23 21:10

不好意思，我是刚解除爬虫这东西，请问实现功能的话，需要哪些配置啊？一台win7的电脑可以实现吗？

秦续业 2013-12-23 23:17 作者

可以……只要有网络就行……

连理枝 2013-12-27 09:39

在win7下可以正常运行，但在winxp下抓取微博数据跑不起来，出现如下错误，cola.pth已经设置。

Traceback (most recent call last):
File "C:\to\path\cola\contrib\weibo\__init__.py", line 25, in <module>
from cola.core.opener import MechanizeOpener
ImportError: No module named cola.core.opener

秦续业 2013-12-27 10:50 作者

还是Python path的问题，首先还是检查pth里路径是不是对的，确保无误，你也可以尝试添加PYTHONPAH的环境变量，在里面添加路径。

连理枝 2013-12-27 18:36

C:\Documents and Settings\Administrator>mongoexport -d sina -c weibo_user --csv
-f uid,nickname -o user_csv.dat
connected to: 127.0.0.1
exported 46 records

打开user_csv.dat
uid,nickname
"1898353550",
"3211200050",
"1644870363",
"1701018393",
"2696532643",
"1906330975",
"3301384190",
"1614282004",
"2887339314",
"1834459124",
"1746173800",
"1981622273",
"1400220917",
"1804559491",
"1751927860",
"1908349515",
"2615392497",
"2524468112",
"3283884397",
"1406320502",
"1056882083",
"2068093955",
"1930559805",
"1894238970",
"1784501333",
"1405342165",
"3176533207",
"3201338905",
"2472928247",
"2314239521",
"1612466092",
"1180498610",
"1648485800",
"2812877242",
"1907736941",
"1898592875",
"1064846025",
"3147625027",
"2388714105",
"1652087901",
"1915508822",
"1808008002",
"1117967813",
"1687508662",
"1701886454",
"1889019865",

（1）使用db.weibo_user.find()可以看到有很多数据，但导出来的user_csv.dat中怎么会只有46条数据
（2）怎么只有uid的数据，nickname的数据就是出不来
兄台帮我看下，哪里错了，谢谢。

秦续业 2013-12-27 19:02 作者

之前我一直用mongodump，查了一下，原来dump工具只能导出json格式，而mongoexport可以导出csv格式。

这里的field选项指定错了，nickname是嵌套在info里的，所以-f应该是：uid,info.nickname。但是我测试了一下，还是导不出数据，而我换成uid,info.avatar却是对的。

查了一下，据说mongoexport兼容性不是很好，对某些数据类型可能不兼容。

我还是推荐用dump工具导出成json格式，否则需要自己写个程序来导出成csv。

连理枝 2013-12-27 21:16

兄台，我分析了一下抓取下来的数据，现在只能看到_id,mid,uid,content,created,n_likes,likes,n_forwards,forwards,n_comments,comments,我如何才能得到哪些用户点赞了、哪些用户转发了，哪些用户评论了呢？

......\weibo\_init_.py需要怎样修改才能实现上述要求。还是已经实现了，只是我没发现。

秦续业 2013-12-27 21:24 作者

likes，forwards和comments里面应该是谁点赞、转发和评论的数据。但是实际上，默认是不抓取这些数据的（所以默认是空的），需要在配置里打开，fetch里的三个选项分别是开关。

不过我需要提醒，打开这些开关后抓取的速度会明显变慢，原因是需要额外访问很多页面。

连理枝 2013-12-29 12:00

兄台，我把fetch中的三个选项yes后，速度依然很快，但在采集到的23488项记录中，只采集到少数几个likes和forwards和comments，99%的都是[]（是不是因为140字的限制？）,如下所示：

_id:ObjectID(52bd3bf21e489118fcdd3b53)
mid:3619507392363600
uid:1406320502
content:好人长命，祝开复老师早日恢复健康！
created:2013-09-06T12:21:00Z
n_likes:114920
likes:[]
n_forwards:10
forwards:[]
n_comments:3
comments:[]

还有，如何在likes，forwads，comments中只抓取相关的uid数据。谢谢您

连理枝 2013-12-29 12:04

速度依然快我判定是缘于likes和forwards和comments中依然没有抓取到相关数据

秦续业 2013-12-29 12:15 作者

大部分没有是不是因为大部分数据是先前没有开启这三个选项时抓取到的？打开这三个选项后有没有什么报错情况？

要只抓取uid，需要改代码，contrib/weibo/parsers.py下类ForwardCommentLikeParser中parse函数里，调用set_instance的地方注释掉，还有like.avatar=**这行也注释掉应该就可以了。

秦续业 2013-12-29 12:56 作者

我发现有的用户的新浪微博的页面不一样，我看下这个问题怎么fix。

秦续业 2013-12-29 15:22 作者

我已经修复了一下，更新代码再试一下。

连理枝 2014-01-18 10:18

兄台，在你的帮助下，我已经能抓到一个微博有哪些人转发，但怎么能获知该条微博的转发路径。即：话题A由用户0发起，用户1都对用户0的话题A进行了转发，用户2也关注话题A，但其没有直接转发用户0而是转发了用户1，用户3没有直接转发用户0而是转发了用户2，那这样获得的转发路径为用户0->用户1->用户2->用户3.....。
从目前抓到的数据（_id,mid,uid,content,created,n_likes,likes,n_forwards,forwards, n_comments,comments）中可以看出来吗？

本人表述啰嗦了。

秦续业 2014-01-18 10:47 作者

肯定是可以看出来这样一个转发路径的。

cmf 2014-01-06 20:41

好像python下有个工具是scrapy，请教下为什么不基于scrapy做开发的考量是什么呢？

秦续业 2014-01-18 10:48 作者

做的时候压根没看scrapy，scrapy主要还是针对单机的。
后面的改进会吸收scrapy中比较不错的设计。

Linus 2014-03-18 08:33

单机模式下，运行一段时间后，mongodb中的数据总数一直是这样。
> db.weibo_user.count()
108
> db.micro_blog.count()
136162

控制台最后出现以下信息：
get 2688036242 url: http://weibo.com/2688036242/follow
Error when fetch url: http://weibo.com/2688036242/follow
Error when get bundle: 2688036242
HTTP Error 302: The HTTP server returned a redirect error that would lead to an infinite loop.
The last 30x error message was:
Moved Temporarily
Traceback (most recent call last):
File "/Users/linus/Documents/cola-master/cola/worker/loader.py", line 229, in _execute_bundle
**options).parse()
File "/Users/linus/Documents/cola-master/contrib/weibo/parsers.py", line 512, in parse
return self._error(url, e)
File "/Users/linus/Documents/cola-master/contrib/weibo/parsers.py", line 91, in _error
raise e
httperror_seek_wrapper: HTTP Error 302: The HTTP server returned a redirect error that would lead to an infinite loop.
The last 30x error message was:
Moved Temporarily
Finish 2688036242
start to get 1889511787
Finish visiting pages count: 96
Finish visiting pages count: 96
然后程序就终结了，这个是怎么回事？望指导

秦续业 2014-03-20 17:15 作者

这个error之前我没有见过，有时间我check一下

南京南京 2014-04-02 16:27

您好我在使用您的cola程序我这里有500个人的id 我只想抓取这500人的数据请问该怎样使用或者改动cola呢是在weibo.yaml的starts 变量里把500个id全写上么

秦续业 2014-04-02 18:45 作者

把这些uid都写在配置文件里，然后设置size为500就可以了。

南京南京 2014-04-02 18:55

您好不好意思再打扰
输入了2个id size设为2

结果爬到的是另外两个不同的id的数据

秦续业 2014-04-02 19:15 作者

可能是你之前已经抓过了，因此会接着上次的抓取继续进行。可以删除cola下的data文件夹，然后再运行试试。

南京南京 2014-04-03 16:26

谢谢删掉data文件夹后正常

limit限制为500 instance为2 的时候不到五分钟程序就停了登陆新浪正常看网页需要加验证码请问单机的话一般把limit和instance设为多少合适

秦续业 2014-04-03 16:34 作者

现在都有验证码了？以前我limit一直设的0，感觉不会被卡住的。

我回头再看看是什么情况。

另外，要抓取回复，把配置文件里有个fetch/comment设为yes即可。

南京南京 2014-04-03 17:05

收到谢谢

我再试试新注册一个账号然后测下limit要多少才可以持续运行

南京南京 2014-04-03 16:30

您好还有一个问题打扰您

如果要抓取回复的数据的话应该怎样改动呢
需要记录被回复人uid 回复人uid

linjinjin7 2014-04-21 00:18

你好！我是菜鸟一枚~~在用你的代码单机模拟时，反复出现以下问题：
D:\SinaWbCrawler\WeiboCrawler>python __init__.py -m sg -t file -l D:\SinaWbCrawler\data 2669291357
Traceback (most recent call last):
File "__init__.py", line 239, in <module>
main(is_dc=is_dc, db=db, folder=folder, uids=uids)
File "__init__.py", line 213, in main
local(*args, **kwargs)
File "__init__.py", line 169, in local
fetcher.login(cookie_filename=cookie_file)
File "D:\SinaWbCrawler\WeiboCrawler\fetcher.py", line 184, in login
self.fetch_params = urldecode(link['u'])
KeyError: 'u'
请问是什么原因哦？谢谢不吝赐教！

linjinjin7 2014-04-21 10:28

File "D:\SinaWbCrawler\WeiboCrawler\fetcher.py", line 184, in login
self.fetch_params = urldecode(link['u'])
KeyError: 'u'
我看这个问题上面也有人出现过，不知道后来是如何解决的？谢谢赐教啦~~

秦续业 2014-04-25 22:13 作者

抱歉之前太忙了，今天才回复。这个WeiboCrawler我已经停止维护了，这个问题可能是新浪修改登录方式导致的。

三忌 2014-08-25 18:18

哥，这个项目，你已经停止维护了吗？

三忌 2014-08-25 18:19

是整个项目，还只是新浪的停止了维护。

秦续业 2014-08-25 18:40 作者

这个项目停止维护，但是现在有更通用的框架，可以完成这个项目的工作。
https://github.com/chineking/cola

张三丰 2014-09-29 23:14

怎么处理的微博页面中js添加的数据呢？

张三丰 2014-09-29 23:19

不好意思看到了也是强行解析 js代码

张三丰 2014-09-29 23:19

你分析过用引擎模拟执行js代码来获取js中的数据么？

毛毛 2014-10-30 21:13

您好，我遇到了cookielib.LoadError: 'cookies.txt' does not look like a Netscape format cookies file
请教一下您。

秦续业 2014-10-31 18:02 作者

这个cookie文件有问题吧，把cookie.txt删掉再试。

金西 2014-11-12 17:35

虽然看不懂，但是为博主这么认真的回复都要点好多赞啦~~

y5m2l0wenjian 2014-11-29 19:13

请问一下现在还能用吗？

Emos 2014-12-24 21:37

我的重点在获得新浪微博的数据，没有用过Python，不知道github上软件包下下来怎么用啊，作者能不能来个详细的步骤嘛

gary 2015-01-21 19:17

楼主，你好，新版cola的配置文件是否有个说明文档，很多项不知道怎么配置。
另外，我在跑col-develop的没有抓到微薄数据，但是应是抓到两条关注的数据，然后程序就会一直报no budget left to process，最后退出，是什么原因？

秦续业 2015-01-22 10:17 作者

基本上按默认配置来。

把除了用户密码的配置贴出来，并贴出来打印出来的信息，看看当中有没有报错信息。

gary 2015-01-22 20:35

谢谢楼主回复,

配置信息如下：
job:
db: sina
mode: bundle # also can be `bundle`
size: 100 # the destination (including bundle or url) size
speed:
max: -1 # to the cluster, -1 means no restrictions, if greater than 0, means webpages opened per minute
single: -1 # max restrictions to a single instance
adaptive: no
instances: 5
priorities: 3 # priorities queue count in mq
copies: 1 # redundant size of objects in mq
inc: yes
shuffle: no # only work in bundle mode, means the urls in a bundle will shuffle before fetching
error:
network:
retries: -1 # 0 means no retry, -1 means keeping on trying
span: 20 # seconds span to retry
ignore: no # only work under bundle mode, if True will ignore this url and move to the next after several tries, or move to the next bundle
server: # like 404 or 500 error returned by server
retries: 5
span: 10
ignore: no
components:
deduper:
cls: cola.core.dedup.FileBloomFilterDeduper
mongo:
host: localhost
port: 27017
login:
- username:
password:
starts:
- uid: 3211200050
- uid: 1898353550
fetch:
forward: yes
comment: no
like: no
clear: no

控制台日志信息如下：

D:\workspace\cola-develop\cola\core\opener.py:108: UserWarning: gzip transfer encoding is experimental!
self.browser.set_handle_gzip(True)
start to process priority: 0
D:\workspace\cola-develop\cola\core\opener.py:108: UserWarning: gzip transfer encoding is experimental!
self.browser.set_handle_gzip(True)
start to process priority: 0
start to process priority: 0
no budget left to process
no budget left to process
no budget left to process
D:\workspace\cola-develop\cola\core\opener.py:108: UserWarning: gzip transfer encoding is experimental!
self.browser.set_handle_gzip(True)
start to process priority: 0
no budget left to process
D:\workspace\cola-develop\cola\core\opener.py:108: UserWarning: gzip transfer encoding is experimental!
self.browser.set_handle_gzip(True)
start to process priority: 0
no budget left to process
no budget left to process
no budget left to process
no budget left to process
no budget left to process
no budget left to process
no budget left to process
no budget left to process
start to process priority: 1
no budget left to process
no budget left to process
start to process priority: 1
no budget left to process
no budget left to process
start to process priority: 1
no budget left to process
no budget left to process
start to process priority: 1
no budget left to process
no budget left to process
start to process priority: 1
no budget left to process
no budget left to process
no budget left to process
no budget left to process
no budget left to process
no budget left to process
no budget left to process
no budget left to process
no budget left to process
no budget left to process
start to process priority: 2
no budget left to process
no budget left to process
start to process priority: 2
no budget left to process
no budget left to process
start to process priority: 2
no budget left to process
no budget left to process
start to process priority: 2
no budget left to process
no budget left to process
start to process priority: 2
no budget left to process
no budget left to process
no budget left to process
no budget left to process
no budget left to process
no budget left to process
no budget left to process
no budget left to process
no budget left to process
no budget left to process
start to process priority: inc
no budget left to process
start to process priority: inc
no budget left to process
no budget left to process
no budget left to process
start to process priority: inc
no budget left to process
no budget left to process
start to process priority: inc
no budget left to process
no budget left to process
start to process priority: inc
no budget left to process
no budget left to process
。。。。。。
。。。。。。
。。。。。。（省略掉)
no budget left to process
no budget left to process
No bundle or url to perform, try to finish job
Counters during running:
{}
Processing shutting down
Shutdown finished
Job id:8ZcGfAqHmzc finished, spend 269.84 seconds for running

秦续业 2015-01-23 11:03 作者

先把clear设为yes再重跑试下。

gary 2015-01-23 11:28

楼主，设置成clear之后，应该可以了，但是貌似一直都在抓follow，没有抓微薄的数据？是先抓用户然后再抓所有用户的微薄吗？还是我的配置有问题？
另外，如果方便，请楼主加下我的qq：43400575

十分感谢你的帮助。

秦续业 2015-01-23 12:03 作者

这个问题修复过一次应该，尝试更新代码看看。

gary 2015-01-23 16:24

更新后还是这个问题啊，我看看源码查查吧，谢谢你的支持。

秦续业 2015-01-23 16:30 作者

我试一下，之前是由于新浪改版导致的。

秦续业 2015-01-23 16:32 作者

试了一下，是可以的，确定更新的是develop分支的代码？

gary 2015-01-23 17:07

1.我下了develop最新的代码，就一直会抓follow的数据，不抓取微薄的数据。抓取的url：http://weibo.com/3211200050/follow?page=31。

2.http://weibo.com/$uid/follow?page这个url变更page的值是无效的，查询的都是一样的用户。而且page值应该会超过关注的用户的总数，比如微薄上一共是10页，但是page值会到30

3. 我能否直接跑master的代码？master也应该是支持单机的吧？

感谢你的回复！

秦续业 2015-01-23 22:56 作者

1、第一个问题，既然已经抓取到了好友页面第31页，说明没有什么问题。你说不会接着抓取微博，是停留再哪个页面。

2、显然有效，如果某个页面用户数为0，就停止。

3、最好不要用master，不久后替换。

ps. 页面最下面有我的QQ等联系方式。

苏格拉 2015-08-24 14:52

请教楼主，能配置mysql么

123 2017-04-28 18:05

123123

残阳似血的博客

一个简单的分布式新浪微博爬虫

标签

赞这篇文章

分享到

157个评论

给作者留言

关于作者

博客分类

搜索

点击排行

标签云

扫描访问

主题

残阳似血的微博

最新评论

yosong 在文章“Django mptt介绍以及使用”下评论

yosong 在文章“Django mptt介绍以及使用”下评论

热搜在文章“PyOdps 0.4版本发布，从一个故事说起”下评论

啊啊在文章“Django mptt介绍以及使用”下评论

admin22 在文章“Django mptt介绍以及使用”下评论

关于作者

所有分类

友情链接

联系信息

地址

Mail

QQ

残阳似血的博客

yosong 在文章“Django mptt介绍以及使用”下评论

yosong 在文章“Django mptt介绍以及使用”下评论

热搜 在文章“PyOdps 0.4版本发布，从一个故事说起”下评论

啊啊 在文章“Django mptt介绍以及使用”下评论

admin22 在文章“Django mptt介绍以及使用”下评论

地址

Mail

QQ

热搜在文章“PyOdps 0.4版本发布，从一个故事说起”下评论

啊啊在文章“Django mptt介绍以及使用”下评论