Привет программисты,
Я хочу читать по строкам текстовый файл Unicode (UTF-8), созданный Notepad, я не хочу отображать строку Unicode на экране, я хочу просто прочитать и сравнить строки!
Этот код читает файл ANSI по строкам и сравнивает строки
Что я хочу
Прочитайте файл test_ansi.txt по строке
если строка = "b" напечатает "YES!"
else напечатайте "NO!"
read_ansi_line_by_line.c
#include <stdio.h>
int main()
{
char *inname = "test_ansi.txt";
FILE *infile;
char line_buffer[BUFSIZ]; /* BUFSIZ is defined if you include stdio.h */
char line_number;
infile = fopen(inname, "r");
if (!infile) {
printf("\nfile '%s' not found\n", inname);
return 0;
}
printf("\n%s\n\n", inname);
line_number = 0;
while (fgets(line_buffer, sizeof(line_buffer), infile)) {
++line_number;
/* note that the newline is in the buffer */
if (strcmp("b\n", line_buffer) == 0 ){
printf("%d: YES!\n", line_number);
}else{
printf("%d: NO!\n", line_number,line_buffer);
}
}
printf("\n\nTotal: %d\n", line_number);
return 0;
}
test_ansi.txt
a
b
c
Компиляция
gcc -o read_ansi_line_by_line read_ansi_line_by_line.c
Выход
test_ansi.txt
1: NO!
2: YES!
3: NO!
Total: 3
Теперь мне нужно прочитать Unicode (UTF-8) файл, созданный Notepad, после более чем 6 месяцев я не нашел хорошего кода/библиотеки в C, который может читать файл, закодированный в UTF-8!, я не знаю именно поэтому, но я думаю, что стандарт C не поддерживает Unicode!
Чтение двоичного файла Unicode - это OK!, но проблема в том, что бинарный файл больше всего уже создан в двоичном режиме!, что означает, что если мы хотим прочитать файл Unicode (UTF-8), созданный Notepad, нам нужно перевести его из Файл UTF-8 в файл BINARY!
Этот код записывает строку Unicode в двоичный файл, ПРИМЕЧАНИЕ. C файл закодирован в UTF-8 и скомпилирован GCC
Что я хочу
Введите Unicode char "ب" в test_bin.dat
create_bin.c
#define UNICODE
#ifdef UNICODE
#define _UNICODE
#else
#define _MBCS
#endif
#include <stdio.h>
#include <wchar.h>
int main()
{
/*Data to be stored in file*/
wchar_t line_buffer[BUFSIZ]=L"ب";
/*Opening file for writing in binary mode*/
FILE *infile=fopen("test_bin.dat","wb");
/*Writing data to file*/
fwrite(line_buffer, 1, 13, infile);
/*Closing File*/
fclose(infile);
return 0;
}
Компиляция
gcc -o create_bin create_bin.c
Выход
create test_bin.dat
Теперь я хочу читать двоичный файл по строкам и сравнивать!
Что я хочу
Прочитайте файл test_bin.dat по строкам если строка = "ب" напечатает "YES!" иначе напечатайте "НЕТ!"
read_bin_line_by_line.c
#define UNICODE
#ifdef UNICODE
#define _UNICODE
#else
#define _MBCS
#endif
#include <stdio.h>
#include <wchar.h>
int main()
{
wchar_t *inname = L"test_bin.dat";
FILE *infile;
wchar_t line_buffer[BUFSIZ]; /* BUFSIZ is defined if you include stdio.h */
infile = _wfopen(inname,L"rb");
if (!infile) {
wprintf(L"\nfile '%s' not found\n", inname);
return 0;
}
wprintf(L"\n%s\n\n", inname);
/*Reading data from file into temporary buffer*/
while (fread(line_buffer,1,13,infile)) {
/* note that the newline is in the buffer */
if ( wcscmp ( L"ب" , line_buffer ) == 0 ){
wprintf(L"YES!\n");
}else{
wprintf(L"NO!\n", line_buffer);
}
}
/*Closing File*/
fclose(infile);
return 0;
}
Выход
test_bin.dat
YES!
ПРОБЛЕМА
Этот метод ОЧЕНЬ ДОЛГО! и НЕ МОЩНО (я новичок в разработке программного обеспечения)
Пожалуйста, кто-нибудь знает, как читать Unicode файл? (я знаю, что это не просто!) Кто-нибудь знает, как конвертировать Unicode файл в двоичный файл? (простой метод) Кто-нибудь знает, как читать файл Unicode в двоичном режиме? (я не уверен)
Спасибо.