这篇文章主要介绍了Ruby的XML格式数据解析库Nokogiri的使用进阶,文中对其从HTML/XML中抓取字段还有特别是命名空间的用法进行了深入讲解,需要的朋友可以参考下


一、基础语法
1.直接以字符串形式获取nokogiri对象:

html_doc = Nokogiri::HTML("<html><body><h1>Mr. Belvedere Fan Club</h1></body></html>")
xml_doc = Nokogiri::XML("<root><aliens><alien><name>Alf</name></alien></aliens></root>")

这里的html_doc和xml_doc就是nokogiri文件

2.也可以通过文件句柄获取nokogiri对象:

f = File.open("blossom.xml")
doc = Nokogiri::XML(f)
f.close

3.还可以直接从网站获取:

require 'open-uri'
doc = Nokogiri::HTML(open("http://www.xxx.com/"))

二、XML文件解析实例
从XML/HTML文件里抓取字段的常用方法:

现在有一个名为shows.xml的文件,内容如下:

<root>
 <sitcoms>
  <sitcom>
   <name>Married with Children</name>
   <characters>
    <character>Al Bundy</character>
    <character>Bud Bundy</character>
    <character>Marcy Darcy</character>
   </characters>
  </sitcom>
  <sitcom>
   <name>Perfect Strangers</name>
   <characters>
    <character>Larry Appleton</character>
    <character>Balki Bartokomous</character>
   </characters>
  </sitcom>
 </sitcoms>
 <dramas>
  <drama>
   <name>The A-Team</name>
   <characters>
    <character>John "Hannibal" Smith</character>
    <character>Templeton "Face" Peck</character>
    <character>"B.A." Baracus</character>
    <character>"Howling Mad" Murdock</character>
   </characters>
  </drama>
 </dramas>
</root>

如果想把所有character标签的内容查找出来,可以这样处理:

@doc = Nokogiri::XML(File.open("shows.xml"))
@doc.xpath("http://character")

xpath和css方法,返回的是一个结点列表,类似于一个数组,它的内容就是从文件中查找出来的符合匹配规则的结点.

把dramas结点里的character结点列表查出来:

@doc.xpath("http://dramas//character")

更有可读性的css方法:

characters = @doc.css("sitcoms name")
# => ["<name>Married with Children</name>", "<name>Perfect Strangers</name>"]

当已知查询结果唯一时,如果想直接返回这个结果,而不是列表,可以直接使用at_xpath或at_css:

@doc.css("dramas name").first # => "<name>The A-Team</name>"
@doc.at_css("dramas name")  # => "<name>The A-Team</name>"

三、Namespaces
对于有多个标签的情况,命名空间就起到非常大的作用了.
例如有这样一个parts.xml文件:

<parts>
 <!-- Alice's Auto Parts Store -->
 <inventory xmlns="http://alicesautoparts.com/">
  <tire>all weather</tire>
  <tire>studded</tire>
  <tire>extra wide</tire>
 </inventory>

 <!-- Bob's Bike Shop -->
 <inventory xmlns="http://bobsbikes.com/">
  <tire>street</tire>
  <tire>mountain</tire>
 </inventory>
</parts>

可以使用唯一的URL作为namespaces,以区分不同的tires标签:

@doc = Nokogiri::XML(File.read("parts.xml"))
car_tires = @doc.xpath('//car:tire', 'car' => 'http://alicesautoparts.com/')
bike_tires = @doc.xpath('//bike:tire', 'bike' => 'http://bobsbikes.com/')

为了让namespace的使用更方便,nokogiri会自动绑定在根结点上找到的合适的任何namespace.
nokogiri会自动关联提供的URL,这个惯例可以代码量.
例如有这样一个atom.xml文件:

<feed xmlns="http://www.w3.org/2005/Atom">

 <title>Example Feed</title>
 <link />
 <updated>2003-12-13T18:30:02Z</updated>
 <author>
  <name>John Doe</name>
 </author>
 <id>urn:uuid:60a76c80-d399-11d9-b93C-0003939e0af6</id>

 <entry>
  <title>Atom-Powered Robots Run Amok</title>
  <link />
  <id>urn:uuid:1225c695-cfb8-4ebb-aaaa-80da344efa6a</id>
  <updated>2003-12-13T18:30:02Z</updated>
  <summary>Some text.</summary>
 </entry>
</feed>

遵循上面提到的惯例,xmlns已被自动绑定,不用再手动为xmlns赋值:

@doc.xpath('//xmlns:title')
# => ["<title>Example Feed</title>", "<title>Atom-Powered Robots Run Amok</title>"]

同样情况,css的用法:

@doc.css('xmlns|title')

并且在使用css方式时,如果namespaces名字是xmlns,那么连这个词本身都可以忽略掉:

@doc.css('title')


最新资讯
华为在美起诉Verizon专利侵权 未就使用权达成协议

华为在美起诉Verizon

据彭博社报道,在明显未就使用知识产权达成许可协议之后
智能机器人入列沈阳抗疫一线

智能机器人入列沈阳抗

最近在沈阳抗击疫情一线,新增了一批机器人“战士”。
AI可智能诊断新冠肺炎CT影像 已在上海多家医院投用

AI可智能诊断新冠肺炎

首款智能评估新冠肺炎的AI影像系统陆续在上海市公共卫
市值一夜消失275亿美元,特斯拉跌掉了6个蔚来

市值一夜消失275亿美

特斯拉的连日疯狂,戛然而止。
专家呼吁SEC调查特斯拉大涨:有无内幕交易、市场操纵

专家呼吁SEC调查特斯

长期消费者权益倡导者拉尔夫·纳德(Ralph Nader)对特斯
FBI继续施压苹果,称破(kai)解(she)不了佛州枪击案枪手iPhone

FBI继续施压苹果,称破

2月5日,美国联邦调查局(FBI)局长克里斯托弗·雷表示,他们
最新文章
Ruby编写HTML脚本替换小程序的实例分享

Ruby编写HTML脚本替换

这篇文章主要介绍了Ruby编写HTML脚本替换小程序的实例
解析proxy代理模式在Ruby设计模式开发中的运用

解析proxy代理模式在R

这篇文章主要介绍了proxy代理模式在Ruby设计模式开发
Ruby on Rails中Rack中间件的基础学习教程

Ruby on Rails中Rack

Rack是一个连接Ruby程序与服务器程序之间的中间件,甚
以MVC的思维方式来理解Ruby on Rails框架的设计结构

以MVC的思维方式来理

RubyonRails是Ruby世界中Web开发框架的代名词,人气相
Ruby基本的环境变量设置以及常用解释器命令介绍

Ruby基本的环境变量设

这篇文章主要介绍了Ruby基本的环境变量设置以及常用解
Ruby的基础语法入门学习教程

Ruby的基础语法入门学

这篇文章主要介绍了Ruby的基础语法入门学习教程,包括
江西快3 传奇私服_中国www.6byj.com 传奇私服考查询 www.181ok.com 传奇私服 传奇私服 传奇私服 传奇私服 zzqzsh.com gotomao.com 广东11选五开奖结果查
    <samp id="cwms4"><ruby id="cwms4"></ruby></samp><wbr id="cwms4"><noscript id="cwms4"></noscript></wbr>
    <kbd id="cwms4"><noscript id="cwms4"></noscript></kbd><bdo id="cwms4"><ruby id="cwms4"></ruby></bdo>

    <ins id="cwms4"></ins>
    <code id="cwms4"></code>
    <kbd id="cwms4"></kbd>
    <ins id="cwms4"></ins>
    <table id="cwms4"></table>
  1. <samp id="cwms4"><ruby id="cwms4"></ruby></samp>

    1. <em id="cwms4"><track id="cwms4"></track></em>
    2. <梁平县>| <安丘市>| <大英县>| <台湾省>| <天峨县>| <满洲里市>| <电白县>| <六盘水市>|