如何对提取的URL进行限定?

往上找id和class属性值,进行多次层级选择,进行内容限定

如何实现获取主页所有urls,然后交给scrapy下载后并解析详情页面,返回结果?(文章简介页面和文章详细页面)

#!/usr/bin/python3

form scrapy.http import Request
main_urls = response.css() # 获取主页面url单独在paser函数中
for chird_url in main_urls: # 从主页面中获取单个chird_url
yield Request(url=child_url,callback=self.child_handle) # Request去下载chird_url,并通过回调函数把下载好的页面给self.child_handle去解析处理
# self.child_handle 为具体页面进行提取值,没有括号,调用twisted框架
next_url = response.css()
yield Request(url=next_url,callback=self.parse)

如何实现当前页面href的值为不完全域名,获得完整域名?

 from urllib import parse
url = parse.urljoin(response.url, response.urll) # reponse.url获取当前访问的url

如何把主页面获取的值传给子页面的解析函数?

yield Request(url=parse.urljoin(response.url, child_url), meta={'img_url': img_url}, callback=self.child_page)

通过meta进行传值,字典形式

在子解析函数,通过

response.meta.get('img_url', '')

    取得传来的值

最新文章

  1. 分享我们项目中基于EF事务机制的架构
  2. maven添加自己的jar包到本地仓库
  3. Visual Studio 2012 Visual C++ 入门
  4. JsRender实用教程(tag else使用、循环嵌套访问父级数据)
  5. web后门top
  6. Sqoop2环境搭建
  7. (六) 语言模型 Language Madel 与 word2vec
  8. JDBC Transaction Management Example---reference
  9. SRM 406(1-250pt, 1-500pt)
  10. HTML&CSS基础学习笔记1.15-合并单元格
  11. Netty详解
  12. 【Python基础】lpthw - Exercise 45 制作游戏
  13. Python selenium巧用Javascript脚本注入解决按钮点选问题
  14. xcode archive 去掉dsym文件和添加dsym文件
  15. Caused by: org.postgresql.util.PSQLException: ERROR: operator does not exist: character varying = integer
  16. 【读书笔记】Linux内核设计与实现(第一章&第二章)
  17. [转]mysql 一个表两列的值交换
  18. 文件上传:input file FileReader
  19. C# 中字段和属性的使用时机
  20. 巨蟒python全栈开发flask1

热门文章

  1. vue-父子组件嵌套的示例
  2. Hyperledger Fabric 1.0 从零开始(十二)——fabric-sdk-java应用
  3. Java学习笔记5(类的入门以及ArrayList)
  4. ETL实践--Spark做数据清洗
  5. Linux架构浅谈
  6. 博客已经迁移到 http://imbotao.top 也会同步到这儿
  7. 五分钟学习React(一): 什么是React
  8. java_web学习(十) 显示mysql中的数据
  9. 一步一步创建ASP.NET MVC5程序[Repository+Autofac+Automapper+SqlSugar](三)
  10. js时间戳与日期格式的相互转换