没有合适的资源?快使用搜索试试~ 我知道了~
Coursera_courses_scraper:Scraper 使用 Selenium 模拟浏览器并抓取异步网站
共10个文件
py:5个
txt:3个
md:1个
需积分: 12 0 下载量 25 浏览量
2021-06-22
19:04:03
上传
评论
收藏 38KB ZIP 举报
温馨提示
Coursera 课程爬虫 此抓取工具使用 selenium 来模仿浏览器并抓取 Coursera 上列出的所有英语语言课程。 抓取的课程数据使用 Beautiful Soup 进行解析,并将每个课程保存到 Postgres 数据库中。 技术栈 Python、BeautifulSoup、Selenium、SQLAlchemy、PostgreSQL、Unittest 显着特点 使用正则表达式从 html 标签中提取复杂的日期字符串。 使用 unittest 测试框架执行以下测试: "test_scrape_data_from_coursera" -- 验证一个虚拟 html 文件的内容是否被 Beautiful Soup 正确捕获。 "test_create_text_file_returns_correct_result" -- 在写入文件之前验证抓取的数据格式是否正确。
资源推荐
资源详情
资源评论
收起资源包目录
Coursera_courses_scraper-master.zip (10个子文件)
Coursera_courses_scraper-master
requirements.txt 72B
README.md 784B
my_scraper
test_course_listing.txt 157B
models.py 1KB
complete_course_list.txt 113KB
test_data
test_course_blocks.html 2KB
coursera_spider.py 5KB
utilties.py 1KB
tests.py 2KB
items.py 355B
共 10 条
- 1
资源评论
FedAI联邦学习
- 粉丝: 26
- 资源: 4566
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- java通用后台管理系统源码数据库 MySQL源码类型 WebForm
- 常用基础元件的PCB封装库SchLib/IntLib通用原理图库OV系列CMOS图像传感器
- springboot大学计算机信息素养教学网站(附源码+数据库)77548
- 韩顺平Java坦克大战源代码&md文档&jar包
- 常用基础元件的PCB封装库SchLib/IntLib通用原理图库MSP430系列单片机
- NBLE(C-1S-FP)电易标准触摸极限禁NFC20241112(1).zip
- 常用基础元件的PCB封装库SchLib/IntLib通用原理图库MAX系列芯片
- 站长亲测企业3级推广报单分销源码/下载会员注册管理系统
- vr2(2).apk.1
- Windows 串口通信工具putty
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功