Подтвердить что ты не робот

Преобразование wstring в строку, закодированную в UTF-8

Мне нужно преобразовать между wstring и string. Я понял, что использование коса декодирования должно делать трюк, но он, похоже, не работает для локализации utf-8.

Моя идея заключается в том, что когда я читаю utf-8 закодированный файл в символы, один символ utf-8 считывается в два обычных символа (как работает utf-8). Я хотел бы создать эту строку utf-8 из представления wstring для библиотеки, которую я использую в своем коде.

Кто-нибудь знает, как это сделать?

Я уже пробовал это:

  locale mylocale("cs_CZ.utf-8");
  mbstate_t mystate;

  wstring mywstring = L"čřžýáí";

  const codecvt<wchar_t,char,mbstate_t>& myfacet =
    use_facet<codecvt<wchar_t,char,mbstate_t> >(mylocale);

  codecvt<wchar_t,char,mbstate_t>::result myresult;  

  size_t length = mywstring.length();
  char* pstr= new char [length+1];

  const wchar_t* pwc;
  char* pc;

  // translate characters:
  myresult = myfacet.out (mystate,
      mywstring.c_str(), mywstring.c_str()+length+1, pwc,
      pstr, pstr+length+1, pc);

  if ( myresult == codecvt<wchar_t,char,mbstate_t>::ok )
   cout << "Translation successful: " << pstr << endl;
  else cout << "failed" << endl;
  return 0;

который возвращает 'failed' для локали cs_CZ.utf-8 и корректно работает для языкового стандарта cs_CZ.iso8859-2.

4b9b3361

Ответ 1

С++ не знает Unicode. Используйте внешнюю библиотеку, такую ​​как ICU (UnicodeString class) или Qt (QString class), оба поддерживают Unicode, включая UTF-8.

Ответ 2

Код ниже может помочь вам:)

#include <codecvt>
#include <string>

// convert UTF-8 string to wstring
std::wstring utf8_to_wstring (const std::string& str)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
    return myconv.from_bytes(str);
}

// convert wstring to UTF-8 string
std::string wstring_to_utf8 (const std::wstring& str)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
    return myconv.to_bytes(str);
}

Ответ 3

Какая ваша платформа? Обратите внимание, что Windows не поддерживает локальные UTF-8, поэтому это может объяснить, почему вы терпите неудачу.

Чтобы сделать это в зависимости от платформы, вы можете использовать MultiByteToWideChar/WideCharToMultiByte в Windows и iconv в Linux. Вы можете использовать некоторую магию повышения, чтобы сделать это незанятым для платформы способом, но я сам не пробовал, поэтому я не могу добавить эту опцию.

Ответ 4

Что такое язык, так это то, что он предоставляет информацию о программе внешнего кодирования, но при условии, что внутренняя кодировка не изменилась. Если вы хотите вывести UTF-8, вам нужно сделать это от wchar_t не от char*.

Что вы можете сделать, это вывести его как необработанные данные (а не строку), тогда его следует правильно интерпретировать, если локалью системы является UTF-8.

Плюс при использовании (w)cout/(w)cerr/(w)cin вам нужно внедрить локаль в поток.

Ответ 5

Библиотека Lexertl имеет итератор, который позволяет это сделать:

std::string str;
str.assign(
  lexertl::basic_utf8_out_iterator<std::wstring::const_iterator>(wstr.begin()),
  lexertl::basic_utf8_out_iterator<std::wstring::const_iterator>(wstr.end()));