说到Facebook,就不得不先提一嘴扎克伯格。
扎克伯格最让人熟悉的梗和外号就是【蜥蜴人,机器人】:
我一看你就不是人,大威天龙!
但是小扎成立的Facebook俨然成为了规模不小的照片分享网站和知名广告商之一。
当然,如此体量网站必然会产生不少的数据,Facebook也曾被窃取过不少的用户信息。虽说如此,但是这次我们获取的数据是公开的哦。
一、Facebook_scraper及其简单的使用方式
Facebook_scraper是脸书的一个专门的爬取库,可以不通过FB的api获取公开的内容。
看一下人家给的使用方法:
>>> from facebook_scraper import get_posts
>>> for post in get_posts('nintendo', pages=1):
... print(post['text'][:50])
...
The final step on the road to the Super Smash Bros
We’re headed to PAX East 3/28-3/31 with new games
他这里获取的是Facebook中任天堂发布的公开帖子。
其中Facebook_scraper的get_posts方法,传入了一个'nintendo'的参数,在get_post方法中,就把'nintendo'凑成了链接:https://www.facebook.com/Nintendo/,get_posts就请求的这个链接获取的数据。
人家例子返回的内容还是任天堂明星大乱斗,现在都是星之卡比了
第二个page参数则是设置了最大的返回数据条数,看看源码:
# TODO: Deprecate `pages` in favor of `page_limit` since it is less confusing
if 'pages' in kwargs:
kwargs['page_limit'] = kwargs.pop('pages')