Подтвердить что ты не робот

Как конвертировать объект документа Nokogiri в JSON

У меня есть некоторые анализируемые объекты Nokogiri::XML::Document, которые я хочу напечатать как JSON.

Я могу пойти по пути создания строки, разбора ее в хэш, с активной записью или с Crack, а затем с Hash.to_json; но это одновременно и уродливое, и в зависимости от того, как слишком малайские библиотеки.

Нет ли более простого способа?

В соответствии с запросом в комментарии, например, XML <root a="b"><a>b</a></root> может быть представлен как JSON:

<root a="b"><a>b</a></root> #=> {"root":{"a":"b"}}
<root foo="bar"><a>b</a></root> #=> {"root":{"a":"b","foo":"bar"}}

Это то, что я получаю сейчас с Crack. И, конечно, столкновение между сущностями и дочерними тегами является потенциальной проблемой, но я строю большую часть самого XML, поэтому мне легче всего избежать этих столкновений:)

4b9b3361

Ответ 1

Вот один из способов сделать это. Как отмечается в моем комментарии, "правильный" ответ зависит от того, каким должен быть ваш выход. Каноническое представление узлов XML в JSON отсутствует, и, следовательно, в библиотеки не встроена такая возможность:

require 'nokogiri'
require 'json'
class Nokogiri::XML::Node
  def to_json(*a)
    {"$name"=>name}.tap do |h|
      kids = children.to_a
      h.merge!(attributes)
      h.merge!("$text"=>text) unless text.empty?
      h.merge!("$kids"=>kids) unless kids.empty?
    end.to_json(*a)
  end
end
class Nokogiri::XML::Document
  def to_json(*a); root.to_json(*a); end
end
class Nokogiri::XML::Text
  def to_json(*a); text.to_json(*a); end
end
class Nokogiri::XML::Attr
  def to_json(*a); value.to_json(*a); end
end

xml = Nokogiri::XML '<root a="b" xmlns:z="zzz">
  <z:a>Hello <b z:x="y">World</b>!</z:a>
</root>'
puts xml.to_json
{
  "$name":"root",
  "a":"b",
  "$text":"Hello World!",
  "$kids":[
    {
      "$name":"a",
      "$text":"Hello World!",
      "$kids":[
        "Hello ",
        {
          "$name":"b",
          "x":"y",
          "$text":"World",
          "$kids":[
            "World"
          ]
        },
        "!"
      ]
    }
  ]
}

Обратите внимание, что указанное выше полностью игнорирует пространства имен, которые могут быть или не быть тем, что вы хотите.


Преобразование в JsonML

Здесь другая альтернатива, которая преобразуется в JsonML. Хотя это преобразование с потерями (оно не поддерживает узлы комментариев, DTD или URL-адреса пространств имен), а формат немного "тупой" по дизайну (первый дочерний элемент находится в [1] или [2] в зависимости от того, а не атрибуты), он указывает префиксы пространства имен для элементов и атрибутов:

require 'nokogiri'
require 'json'
class Nokogiri::XML::Node
  def namespaced_name
    "#{namespace && "#{namespace.prefix}:"}#{name}"
  end
end
class Nokogiri::XML::Element
  def to_json(*a)
    [namespaced_name].tap do |parts|
      unless attributes.empty?
        parts << Hash[ attribute_nodes.map{ |a| [a.namespaced_name,a.value] } ]
      end
      parts.concat(children.select{|n| n.text? ? (n.text=~/\S/) : n.element? })
    end.to_json(*a)
  end
end
class Nokogiri::XML::Document
  def to_json(*a); root.to_json(*a); end
end
class Nokogiri::XML::Text
  def to_json(*a); text.to_json(*a); end
end
class Nokogiri::XML::Attr
  def to_json(*a); value.to_json(*a); end
end

xml = Nokogiri::XML '<root a="b" xmlns:z="zzz">
  <z:a>Hello <b z:x="y">World</b>!</z:a>
</root>'
puts xml.to_json
#=> ["root",{"a":"b"},["z:a","Hello ",["b",{"z:x":"y"},"World"],"!"]]

Ответ 2

Это работает для меня:

Hash.from_xml(@nokogiri_object.to_xml).to_json

Этот метод использует активную поддержку, поэтому, если вы не используете рельсы, тогда включайте активные расширения ядра поддержки вручную:

require 'active_support/core_ext/hash'