У меня возникла проблема с использованием File.list() с именами файлов с некорректно полученными символами NON-ASCII в Mac OS X при использовании Java 7 из Oracle.
Я использую следующий пример:
import java.io.*;
import java.util.*;
public class ListFiles {
public static void main(String[] args)
{
try {
File folder = new File(".");
String[] listOfFiles = folder.list();
for (int i = 0; i < listOfFiles.length; i++)
{
System.out.println(listOfFiles[i]);
}
Map<String, String> env = System.getenv();
for (String envName : env.keySet()) {
System.out.format("%s=%s%n",
envName,
env.get(envName));
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
Запустив этот пример с Java 6 от Apple, все в порядке:
....
Folder-ÄÖÜäöüß
吃饭.txt
....
Запустив этот пример с Java 7 из Oracle, результат следующий:
....
Folder-A��O��U��a��o��u����
������.txt
....
Но если я задаю среду следующим образом (не указан в двух случаях выше):
LANG=en_US.UTF-8
результат с Java 7 от Oracle выглядит следующим образом:
....
Folder-ÄÖÜäöüß
吃饭.txt
....
Моя проблема в том, что я не хочу устанавливать переменную среды LANG. Это приложение графического интерфейса, которое я хочу развернуть в качестве приложения Mac OS X, и сделав это, параметр LSEnvironment
<key>LSEnvironment</key>
<dict>
<key>LANG</key>
<string>en_US.UTF-8</string>
</dict>
в Info.plist не действует (см. также здесь)
Что я могу сделать, чтобы правильно найти имена файлов в Java 7 из Oracle на Mac OS X без необходимости устанавливать среду LANG? В Windows и Linux эта проблема не существует.
EDIT:
Если я печатаю отдельные байты с помощью:
byte[] x = listOfFiles[i].getBytes();
for (int j = 0; j < x.length; j++)
{
System.out.format("%02X",x[j]);
System.out.print(" ");
}
System.out.println();
правильные результаты:
Folder-ÄÖÜäöüß
46 6F 6C 64 65 72 2D 41 CC 88 4F CC 88 55 CC 88 61 CC 88 6F CC
88 75 CC 88 C3 9F
吃饭.txt
E5 90 83 E9 A5 AD 2E 74 78 74
и неправильные результаты:
Folder-A��O��U��a��o��u����
46 6F 6C 64 65 72 2D 41 EF BF BD EF BF BD 4F EF BF BD EF BF BD
55 EF BF BD EF BF BD 61 EF BF BD EF BF BD 6F EF BF BD EF BF BD
75 EF BF BD EF BF BD EF BF BD EF BF BD
������.txt
EF BF BD EF BF BD EF BF BD EF BF BD EF BF BD EF BF BD 2E 74 78 74
Итак, можно увидеть, что Files.list() заменяет некоторые байты UTF-8 "EF BF BD" = Unicode U + FFFD = Заменяемый символ, если LANG не установлен (только Java 7 из Oracle).