如何对提取的URL进行限定?

往上找id和class属性值,进行多次层级选择,进行内容限定

如何实现获取主页所有urls,然后交给scrapy下载后并解析详情页面,返回结果?(文章简介页面和文章详细页面)

#!/usr/bin/python3

form scrapy.http import Request
main_urls = response.css() # 获取主页面url单独在paser函数中
for chird_url in main_urls: # 从主页面中获取单个chird_url
yield Request(url=child_url,callback=self.child_handle) # Request去下载chird_url,并通过回调函数把下载好的页面给self.child_handle去解析处理
# self.child_handle 为具体页面进行提取值,没有括号,调用twisted框架
next_url = response.css()
yield Request(url=next_url,callback=self.parse)

如何实现当前页面href的值为不完全域名,获得完整域名?

 from urllib import parse
url = parse.urljoin(response.url, response.urll) # reponse.url获取当前访问的url

如何把主页面获取的值传给子页面的解析函数?

yield Request(url=parse.urljoin(response.url, child_url), meta={'img_url': img_url}, callback=self.child_page)

通过meta进行传值,字典形式

在子解析函数,通过

response.meta.get('img_url', '')

    取得传来的值

最新文章

  1. Entity Framework教程(第二版)
  2. Shell入门教程:命令替换 $() 和 ``
  3. JavaWeb学习之JSP常用标签、EL表达式的运算符、JSTL标签库(6)
  4. socket.io 入门教程
  5. Linux C 文件与目录4 将缓冲区数据写入磁盘
  6. Spring Loaded is a JVM agent for reloading class file changes
  7. android webview js alert对话框 不能弹出 解决办法
  8. django中form表单的提交:
  9. Nginx将通过IP访问重定向
  10. Hibernate(三)之配置文件详解
  11. Python Web学习笔记之多道程序设计技术和操作系统的特性
  12. 我的代码-models
  13. powershell 删除8天前的日志
  14. Mysql Binlog三种格式介绍及分析【转】
  15. .NET 常用ORM之Nbear
  16. 为什么使用DLL
  17. 24.类的加载机制和反射.md
  18. 28335XINTF的简单使用
  19. Sword websocket分析二
  20. C语言中交换两个数值的方法

热门文章

  1. java基础,集合,HashMap,源码解析
  2. 修改MySQL 5.7.9版本的root密码方法以及一些新变化整理
  3. sso示例代码
  4. Zabbix实战-简易教程(5)--Proxy和Agent端(源码和yum方式)
  5. Yii2.0源码阅读-一次请求的完整过程
  6. T4模板生成代码。 数据实体层与数据仓储层。备注
  7. cs231n spring 2017 lecture2 Image Classification 听课笔记
  8. gulp的流与执行顺序
  9. 学习笔记-express路径问题
  10. 51 Nod 1057 N的阶乘【Java大数乱搞】