Подтвердить что ты не робот

Может ли выход wprintf правильно перенаправляться на UTF-16 в Windows?

В программе на C я использую wprintf для печати текста Unicode (UTF-16) в консоли Windows. Это прекрасно работает, но когда выход программы перенаправляется в файл журнала, файл журнала имеет поврежденную кодировку UTF-16. Когда перенаправление выполняется в командной строке Windows, все разрывы строк кодируются как узкий разрыв строки ASCII (0d0a). Когда перенаправление выполняется в PowerShell, вставляются нулевые символы.

Можно ли перенаправить вывод в соответствующий файл журнала UTF-16?

Пример программы:

#include <stdio.h>
#include <windows.h>
#include <fcntl.h>
#include <io.h>

int main () {

  int prevmode;

  prevmode = _setmode(_fileno(stdout), _O_U16TEXT);
  fwprintf(stdout,L"one\n");
  fwprintf(stdout,L"two\n");
  fwprintf(stdout,L"three\n");
  _setmode(_fileno(stdout), prevmode);


  return 0;
}

Перенаправление вывода в командной строке. См. 0d0a, который должен быть 0d00 0a00:

c:\test>.\testu16.exe > o.txt

c:\test>xxd o.txt
0000000: 6f00 6e00 6500 0d0a 0074 0077 006f 000d  o.n.e....t.w.o..
0000010: 0a00 7400 6800 7200 6500 6500 0d0a 00    ..t.h.r.e.e....

Перенаправление вывода в PowerShell. См. Все вставленные 0000.

PS C:\test> .\testu16.exe > p.txt
PS C:\test> xxd p.txt
0000000: fffe 6f00 0000 6e00 0000 6500 0000 0d00  ..o...n...e.....
0000010: 0a00 0000 7400 0000 7700 0000 6f00 0000  ....t...w...o...
0000020: 0d00 0a00 0000 7400 0000 6800 0000 7200  ......t...h...r.
0000030: 0000 6500 0000 6500 0000 0d00 0a00 0000  ..e...e.........
0000040: 0d00 0a00                                ....
4b9b3361

Ответ 1

" > " всегда будет перенаправлять вашу консоль UTF16 как распечатанную "ASCII", даже если вы помещаете спецификацию на свой вывод или используете prevmode = _setmode(_fileno(stdout), _O_BINARY);. У меня такая же проблема с Windows7, что нет способа сделать это с помощью fwprintf.

Ответ 2

Я получил этот ответ от Hans Passant. Спасибо Хансу.

Неправильные разрывы строк являются эффектом буферизации stdout. Нам нужно сбросить поток до того, как мы вернем режим обратно в исходный режим.

prevmode = _setmode(_fileno(stdout), _O_U16TEXT);
fwprintf(stdout,L"one\n");
fwprintf(stdout,L"two\n");
fwprintf(stdout,L"three\n");
fflush(stdout);               /* flush stream */
_setmode(_fileno(stdout), prevmode);

Перенаправление вывода в командной строке (cmd.exe) создает правильный файл UTF-16 без спецификации.

c:\test>.\testu16 > o.txt

c:\test>xxd o.txt
0000000: 6f00 6e00 6500 0d00 0a00 7400 7700 6f00  o.n.e.....t.w.o.
0000010: 0d00 0a00 7400 6800 7200 6500 6500 0d00  ....t.h.r.e.e...
0000020: 0a00                                     ..

В powershell вывод по-прежнему ошибочен.

PS C:\test> .\testu16 > p.txt
PS C:\test> xxd p.txt
0000000: fffe 6f00 0000 6e00 0000 6500 0000 0d00  ..o...n...e.....
0000010: 0a00 0000 0d00 0a00 0000 7400 0000 7700  ..........t...w.
0000020: 0000 6f00 0000 0d00 0a00 0000 0d00 0a00  ..o.............
0000030: 0000 7400 0000 6800 0000 7200 0000 6500  ..t...h...r...e.
0000040: 0000 6500 0000 0d00 0a00 0000 0d00 0a00  ..e.............
0000050: 0000 0d00 0a00                           ......

Это связано с тем, что PowerShell не сохраняет поток нетронутым. Он пытается интерпретировать его и преобразовывать в UTF-16. Он предположил, что кодировка входного потока была ANSI. PowerShell добавила спецификацию UTF-16, а остальная часть - UTF-16 с двойной кодировкой. Это объясняет дополнительные нули.

Даже использование out-file и указание кодировки не помогают.

PS C:\test> .\testu16.exe | out-file p.txt -encoding unicode
PS C:\test> xxd p.txt
0000000: fffe 6f00 0000 6e00 0000 6500 0000 0d00  ..o...n...e.....
0000010: 0a00 0000 0d00 0a00 0000 7400 0000 7700  ..........t...w.
0000020: 0000 6f00 0000 0d00 0a00 0000 0d00 0a00  ..o.............
0000030: 0000 7400 0000 6800 0000 7200 0000 6500  ..t...h...r...e.
0000040: 0000 6500 0000 0d00 0a00 0000 0d00 0a00  ..e.............
0000050: 0000 0d00 0a00                           ......

PowerShell должен быть проинформирован о кодировке, которая выполняется путем первой печати спецификации UTF-16:

prevmode = _setmode(_fileno(stdout), _O_U16TEXT);
fwprintf(stdout, L"\xfeff");  /* UTF-16LE BOM */
fwprintf(stdout,L"one\n");
fwprintf(stdout,L"two\n");
fwprintf(stdout,L"three\n");
fflush(stdout);               /* flush stream */
_setmode(_fileno(stdout), prevmode);

Теперь мы получаем правильный файл UTF-16.

PS C:\test> .\testu16 > p.txt
PS C:\test> xxd p.txt
0000000: fffe 6f00 6e00 6500 0d00 0a00 7400 7700  ..o.n.e.....t.w.
0000010: 6f00 0d00 0a00 7400 6800 7200 6500 6500  o.....t.h.r.e.e.
0000020: 0d00 0a00