Подтвердить что ты не робот

File.list() неправильно загружает имена файлов с NON-ASCII-символами в Mac OS X при использовании Java 7 из Oracle

У меня возникла проблема с использованием File.list() с именами файлов с некорректно полученными символами NON-ASCII в Mac OS X при использовании Java 7 из Oracle.

Я использую следующий пример:

import java.io.*;
import java.util.*;

public class ListFiles {

  public static void main(String[] args) 
  {
    try { 
      File folder = new File(".");
      String[] listOfFiles = folder.list(); 
      for (int i = 0; i < listOfFiles.length; i++) 
      {
        System.out.println(listOfFiles[i]);
      }
      Map<String, String> env = System.getenv();
      for (String envName : env.keySet()) {
        System.out.format("%s=%s%n",
            envName,
            env.get(envName));
      }
    } catch (Exception e) { 
      e.printStackTrace(); 
    } 
  }

}

Запустив этот пример с Java 6 от Apple, все в порядке:

....
Folder-ÄÖÜäöüß
吃饭.txt
....

Запустив этот пример с Java 7 из Oracle, результат следующий:

....
Folder-A��O��U��a��o��u����
������.txt
....

Но если я задаю среду следующим образом (не указан в двух случаях выше):

LANG=en_US.UTF-8

результат с Java 7 от Oracle выглядит следующим образом:

....
Folder-ÄÖÜäöüß
吃饭.txt
....

Моя проблема в том, что я не хочу устанавливать переменную среды LANG. Это приложение графического интерфейса, которое я хочу развернуть в качестве приложения Mac OS X, и сделав это, параметр LSEnvironment

<key>LSEnvironment</key>
<dict>
  <key>LANG</key>
  <string>en_US.UTF-8</string>
</dict>

в Info.plist не действует (см. также здесь)

Что я могу сделать, чтобы правильно найти имена файлов в Java 7 из Oracle на Mac OS X без необходимости устанавливать среду LANG? В Windows и Linux эта проблема не существует.

EDIT:

Если я печатаю отдельные байты с помощью:

byte[] x = listOfFiles[i].getBytes();
for (int j = 0; j < x.length; j++) 
{
    System.out.format("%02X",x[j]);
    System.out.print(" ");
}
System.out.println();

правильные результаты:

Folder-ÄÖÜäöüß
46 6F 6C 64 65 72 2D 41 CC 88 4F CC 88 55 CC 88 61 CC 88 6F CC 
88 75 CC 88 C3 9F 
吃饭.txt
E5 90 83 E9 A5 AD 2E 74 78 74 

и неправильные результаты:

Folder-A��O��U��a��o��u����
46 6F 6C 64 65 72 2D 41 EF BF BD EF BF BD 4F EF BF BD EF BF BD 
55 EF BF BD EF BF BD 61 EF BF BD EF BF BD 6F EF BF BD EF BF BD 
75 EF BF BD EF BF BD EF BF BD EF BF BD  
������.txt
EF BF BD EF BF BD EF BF BD EF BF BD EF BF BD EF BF BD 2E 74 78 74 

Итак, можно увидеть, что Files.list() заменяет некоторые байты UTF-8 "EF BF BD" = Unicode U + FFFD = Заменяемый символ, если LANG не установлен (только Java 7 из Oracle).

4b9b3361

Ответ 1

Если все остальное не удается, создайте оболочку для JVM, которая устанавливает переменную среды LC_CTYPE, а затем запускает ваше приложение. OS X не заботится о том, какая программа говорит, что она работает? Вероятно, проще всего создать эту оболочку в оболочке script:

#!/bin/bash
export LC_CTYPE="UTF-8" # Try other options if this doesn't work
exec java your.program.Here

Проблема заключается в том, как Java - любая версия Java, из Apple или Oracle, - читает имена файлов из файловой системы. Имена файлов в файловой системе - это, по сути, двоичные данные, и их необходимо декодировать, чтобы использовать их как String в Java. (Вы можете узнать больше об этой проблеме в своем блоге.)

Обнаружение кодировки варьируется от платформы к платформе и версии к версии, поэтому это должно быть где Apple Java 6 и Oracle Java 7 отличаются: Java 6 правильно определяет, что система настроена на UTF-8, в то время как Java 7 получает это неправильно.

Странно, хотя, когда я пытаюсь воспроизвести проблему со следующей программой, я обнаружил, что как Java 6, так и Java 7 правильно используют UTF-8 для декодирования имен файлов (они правильно печатаются на терминале). Для других операций ввода-вывода Java 6u35 использует MacRoman в качестве кодировки по умолчанию, тогда как Java 7u7 использует UTF-8 (отображается системным свойством file.encoding).

import java.io.*;

public class Test {
  public static void main(String[] args) {
    System.setOut(new PrintStream(System.out, true, "UTF-8"));
    System.out.println(System.getProperty("file.encoding"));
    for (File f: new File(".").listFiles) {
      System.out.println(g.getName());
    }
  }
}

Когда я запускаю locale в OS 10.7, я получаю этот вывод. Похоже, что в моей системе Java 6 неправильно интерпретирует значение, заданное для LC_CTYPE. Насколько я знаю, у системы нет настроек, и все установлено на английский, поэтому это должна быть конфигурация по умолчанию:

LANG=
LC_COLLATE="C"
LC_CTYPE="UTF-8"
LC_MESSAGES="C"
LC_MONETARY="C"
LC_NUMERIC="C"
LC_TIME="C"
LC_ALL=

Ответ 2

Так как запуск с Java6 дает правильный результат, будет ли это:

System.out.println(new String(listOfFiles[i].getBytes(),"UTF-8"));

решить проблему?

Этот предлагаемый конструктор явно интерпретирует строку listOfFiles [i] как кодированную строку UTF-8.

EDIT:

Поскольку он не работает, это означает, что UTF-8 не является кодировкой по умолчанию для os x. Википедия говорит, что Mac OS Roman. Поэтому я предлагаю попробовать:

System.out.println(new String(listOfFiles[i].getBytes(),"MacRoman"));

но это должно быть тот же, что и

System.out.println(new String(listOfFiles[i].getBytes()));

Итак, если это не работает, это приводит к выводу, что это может быть ошибка, как сказал Эндрю Томсон в комментарии к вашему вопросу.

Ответ 4

Снизьте свой JDK до встроенного Mac OSX JDK. Если вы это сделаете, проблема должна исчезнуть.

Кроме того, вы также можете настроить конфигурацию запуска в Eclipse для работы в формате UTF-8.

Ответ 5

Это ошибка в старой java файле api (возможно, только на Mac). Во всяком случае, все это исправлено в новом java.nio.

У меня есть несколько файлов, содержащих символы Unicode в имени файла и содержимом, которое не удалось загрузить с помощью java.io.File и связанных с ним классов. После преобразования всего моего кода для использования java.nio.Path ВСЕ начало работать. И я заменил org.apache.commons.io.FileUtils(который имеет ту же проблему) с java.nio.Files...

... и обязательно прочитайте и напишите содержимое файла с помощью соответствующей кодировки, например: Files.readAllLines(myPath, StandardCharsets.UTF_8)