Подтвердить что ты не робот

Нечувствительный к регистру XML-парсер в С#

Все, что вы делаете с XML, чувствительно к регистру, я это знаю.

Однако, сейчас я нахожусь в ситуации, когда программное обеспечение, которое я пишу, даст намного меньше ошибок, если я каким-то образом сделаю регистр xml name/attribute неприемлемым. Нечувствительный к регистру XPath был бы отправлен богом.

Есть ли простой способ/библиотека для этого в С#?

Ответ 1

Документ XMl может иметь два разных элемента, названных соответственно: MyName и MyName -, которые должны быть разными. Преобразование/обработка их как одно и то же имя - ошибка, которая может иметь грубые последствия.

В случае, если выше это не так, то это более точное решение, используя XSLT для обработки документа в один, который имеет только имена нижних регистров и имена нижних регистров:

<xsl:stylesheet version="1.0"
 xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
 <xsl:output omit-xml-declaration="yes" indent="yes"/>
 <xsl:strip-space elements="*"/>

 <xsl:variable name="vUpper" select=
 "'ABCDEFGHIJKLMNOPQRSTUVWXYZ'"/>

 <xsl:variable name="vLower" select=
 "'abcdefghijklmnopqrstuvwxyz'"/>

 <xsl:template match="node()|@*">
     <xsl:copy>
       <xsl:apply-templates select="node()|@*"/>
     </xsl:copy>
 </xsl:template>

 <xsl:template match="*[name()=local-name()]" priority="2">
  <xsl:element name="{translate(name(), $vUpper, $vLower)}"
   namespace="{namespace-uri()}">
       <xsl:apply-templates select="node()|@*"/>
  </xsl:element>
 </xsl:template>

 <xsl:template match="*" priority="1">
  <xsl:element name=
   "{substring-before(name(), ':')}:{translate(local-name(), $vUpper, $vLower)}"
   namespace="{namespace-uri()}">
       <xsl:apply-templates select="node()|@*"/>
  </xsl:element>
 </xsl:template>

 <xsl:template match="@*[name()=local-name()]" priority="2">
  <xsl:attribute name="{translate(name(), $vUpper, $vLower)}"
   namespace="{namespace-uri()}">
       <xsl:value-of select="."/>
  </xsl:attribute>
 </xsl:template>

 <xsl:template match="@*" priority="1">
  <xsl:attribute name=
   "{substring-before(name(), ':')}:{translate(local-name(), $vUpper, $vLower)}"
   namespace="{namespace-uri()}">
     <xsl:value-of select="."/>
  </xsl:attribute>
 </xsl:template>
</xsl:stylesheet>

, когда это преобразование применяется к любому XML-документу, например, к:

<authors xmlns:user="myNamespace">
  <?ttt This is a PI ?>
  <Author xmlns:user2="myNamespace2">
    <Name idd="VH">Victor Hugo</Name>
    <user2:Name idd="VH">Victor Hugo</user2:Name>
    <Nationality xmlns:user3="myNamespace3">French</Nationality>
  </Author>
  <!-- This is a very long comment the purpose is
       to test the default stylesheet for long comments-->
  <Author Period="classical">
    <Name>Sophocles</Name>
    <Nationality>Greek</Nationality>
  </Author>
  <author>
    <Name>Leo Tolstoy</Name>
    <Nationality>Russian</Nationality>
  </author>
  <Author>
    <Name>Alexander Pushkin</Name>
    <Nationality>Russian</Nationality>
  </Author>
  <Author Period="classical">
    <Name>Plato</Name>
    <Nationality>Greek</Nationality>
  </Author>
</authors>

нужный, правильный результат (имена элементов и атрибутов, преобразованные в строчные буквы), создается:

<authors><?ttt This is a PI ?>
   <author>
      <name idd="VH">Victor Hugo</name>
      <user2:name xmlns:user2="myNamespace2" idd="VH">Victor Hugo</user2:name>
      <nationality>French</nationality>
   </author><!-- This is a very long comment the purpose is
       to test the default stylesheet for long comments-->
   <author period="classical">
      <name>Sophocles</name>
      <nationality>Greek</nationality>
   </author>
   <author>
      <name>Leo Tolstoy</name>
      <nationality>Russian</nationality>
   </author>
   <author>
      <name>Alexander Pushkin</name>
      <nationality>Russian</nationality>
   </author>
   <author period="classical">
      <name>Plato</name>
      <nationality>Greek</nationality>
   </author>
</authors>

Как только документ будет преобразован в желаемую форму, вы можете выполнить любую требуемую обработку на преобразованном документе.

Ответ 2

Вы можете создавать нечувствительные к регистру методы (расширения для удобства использования), например:

public static class XDocumentExtensions
{
    public static IEnumerable<XElement> ElementsCaseInsensitive(this XContainer source,  
        XName name)
    {
        return source.Elements()
            .Where(e => e.Name.Namespace == name.Namespace 
                && e.Name.LocalName.Equals(name.LocalName, StringComparison.OrdinalIgnoreCase));
    }
}

Ответ 3

XML - это текст. Просто ToLower перед загрузкой на любой парсер, который вы используете.

До тех пор, пока вам не нужно проверять схему и не забывайте, что все значения имеют нижний регистр, это должно работать нормально.

Дело в том, что любой синтаксический анализатор XML будет чувствителен к регистру. Если бы это было не так, это не было бы парсером XML.

Ответ 4

Я бы начал с преобразования всех тегов и имен атрибутов в нижний регистр, оставив значения нетронутыми, используя синтаксический анализ SAX, т.е. с XmlTextReader.