`

一个基于XML的可配置的HTML数据解析工具

阅读更多

最近做一些抓取工作,从一个行业的网站上抓取想要的信息。由于各个网站的页面各不一样,一般的实现是为某一类特定的页面编写一个解析器。如果抓取的网站少还好点,但是当网站数量多时,这就是最笨的方法了。

所以抽了点时间实现了一个基于XML的可配置的解析工具。功能只要有:


  1. 支持正则表达式抽取数据
  2. 支持SPEL运算,需要spring的相关包
  3. 支持工具类的方法调用,对抽取数据进行后续处理
  4. xml描述继承
  5. 数据校验(校验失败时抛出异常,包那个字段在那个url页面解析过程中发生了问题)
使用:只需要提交要抽取的页面的URL。返回指定对象。这样做其实开发工作并没有很大的减少,只是更便于管理和扩展。



    此工具大致由以下几部分组成:

  1. 控制器ExtractorController,主要功能有读取配置文件和对外提供统一接口 Object extractHtml(String url)。
  2. 读取配置文件时初始化一个配置文件目录。按照配置文件之间的依赖关系读取配置元数据,存入Extractor对象。
  3. 配置文件主要分为字段定义、预定义两部分。
  4. 预定义主要是一些在解析页面过程中的一些临时变量(如用正则获取的一些临时字符串,或一些http请求内容,一些页面的部分数据是通过ajax加载的)。
  5. 字段的定义,字段名称和对象名称一致,包含一个required属性,用于校验判断抽取的正确性。
  6. 字段包含若干个处理器。处理器的执行按照配置文件的先后顺序依次执行,下一步执行默认以上一步的结果作为数据。
  7. 处理器包含默认值处理器valueProcess 、正则处理器 RegexProcess  Spel表达式处理器SpelProcess、工具 方法处理器ToolProcess、和数据请求处理器ContentRequestProcess、字段处理器FieldProcess等。
  8. valueProcess 将字段设置一个指定的值,类似常量概念。
  9. RegexProcess 利用上下文抽取匹配的数据。上下文一般指的是上一部的操作、或者指定的变量、 如果没有上一步则为最开始获取传入url的内容。
  10. SpelProcess主要是针对当前上下文做一些运算,具体参考Spring的Spel文档。
  11. ToolProcess主要是针对当前上下文调用一些工具类的方法。工具类可以是自己的也可以是一些已有的(如apache commons 中常用得NumberUtils)
  12. ContentRequestProcess用于请求一些Ajax数据。(有些开源项目可以执行js如cobra,然后将修改反映到DOM树种。但个人觉得这样有点复杂化,毕竟要获取的数据源不是很多)。 ContentRequestProcess可能要依赖于其他一些处理 如预定义的处理或者一些字段的数据的获取。
  13. 每一个处理器的操作都会缓存到一个数据容器中DataContainer(HashMap的一个扩展)。
  14. FieldProcess字段处理器依次调用字段的处理器,并返回最后一个的处理器返回的值。
  15. Process的一个抽象方法是Object process(DataContainer dataContainer);
  16. 每一个Process都有对应的Setting对象。如RegexProcess对应的Setting对象是RegexSetting。Setting对应于配置文件中的相应元素,并最后装配成Extractor对象。
建议:将数据类型简化,尽量使用String类型 ,不要做过多的数据处理工作,把这部分工作留在抽取后进行。
今天就写到这里以后有时间和实际使用情况再补上!
分享到:
评论

相关推荐

    基于VB实现的商场管理系统设计(源代码+系统).zip

    【作品名称】:基于VB实现的商场管理系统设计(源代码+系统) 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。

    数据更新至2020年主要发电企业火电机组分容量等级发电装机容量情况.xls

    数据来源:中国电力统计NJ-2021版

    数据更新至2020年电网建设 本年开工规模.xls

    数据来源:中国电力统计NJ-2021版

    基于C# WinForm框架开发的图书管理系统源码+sql文件.zip

    基于C# WinForm框架开发的图书管理系统源码+sql文件.zip基于C# WinForm框架开发的图书管理系统源码+sql文件.zip基于C# WinForm框架开发的图书管理系统源码+sql文件.zip基于C# WinForm框架开发的图书管理系统源码+sql文件.zip基于C# WinForm框架开发的图书管理系统源码+sql文件.zip

    毕业设计(论文)-基于Android系统的人事管理系统设计与实现(48页).doc

    毕业设计(论文)-基于Android系统的人事管理系统设计与实现(48页).doc

    pentair 5800 SXT软水机说明书

    pentair 5800 SXT软水机说明书

    (更新至2022年)各地区乡村分性别的15岁及以上文盲人口.xls

    数据来源:中国人口与就业统计NJ-2023版

    node-v12.11.0-linux-armv7l.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    node-v9.6.1-sunos-x64.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    (更新至2022年)全国镇分年龄、性别的人口数.xls

    数据来源:中国人口与就业统计NJ-2023版

    (更新至2022年)消费物价指数 (2019年10月-2020年9月=100).xls

    数据来源:中国人口与就业统计NJ-2023版

    node-v10.23.0-linux-armv7l.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    node-v7.6.0-x86.msi

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    node-v11.4.0-linux-arm64.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    小区物业管理系统设计与实现.docx

    小区物业管理系统设计与实现.docx

    律师事务所办公管理系统设计及实现.doc

    律师事务所办公管理系统设计及实现.doc

    基于Qt与Android的KTV管理系统设计与实现毕业论文(25页).doc

    基于Qt与Android的KTV管理系统设计与实现毕业论文(25页).doc

    消费价格指数(2010年=100).xls

    数据来源:中国劳动统计NJ-2023版

    华为 OD 机考攻略-加强版

    附件是华为 OD 机考攻略_加强版,文件绿色安全,请大家放心下载,仅供交流学习使用,无任何商业目的!

    node-v12.13.0-linux-armv7l.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

Global site tag (gtag.js) - Google Analytics