Я пытаюсь найти ресурс, который можно использовать для подключения Языки (или, скорее, Scripts) к блокам символов Unicode. Такой ресурс будет использоваться для поиска таких вопросов, как "Какие Unicode-блоки используются на французском языке?" или "Какие языки используют блок от 0A80-0AFF (http://unicodinator.com/#Block-Gujarati)?" Вы знаете о таком ресурсе?
Я бы ожидал, что сможем легко найти эту информацию в unicode.org. Я быстро смог найти отличный стол, который связывает коды стран с языками (http://unicode.org/repos/cldr-tmp/trunk/diff/supplemental/territory_language_information.html). Но я потратил немало времени на то, чтобы не думать о том, что касается Unicode Blocks to Languages. Возможно, у меня есть проблема с терминологией, которая мешает мне подключать точки здесь...
Я не придирчив к тому, что подразумевается под "языком" (код Java Locale или код ISO 639 или что-то еще) в этом случае. Я также понимаю, что могут не быть точных ответов, потому что, например, арабский документ может содержать латинский и другой текст в дополнение к символам из арабских блоков (http://unicodinator.com/#Block-Arabic, http://unicodinator.com/#Block-Arabic_Supplement). Но, безусловно, должна быть таблица, в которой говорится, что "эти языки идут с этими блоками"... Я также не придирчив к формату (XML, CSV, независимо), я могу легко преобразовать его в данные, которые я могу использовать для своего приложения, И снова я понимаю, что ссылка, вероятно, будет связывать скрипты с блоками, а не с языками (хотя скрипты могут быть сопоставлены с языками).
Я понимаю, что это будет таблица "многие-ко-многим" (поскольку многие языки используют символы из нескольких блоков, а многие блоки используются несколькими языками); Я действительно понимаю, что это не может быть точно ответино, поскольку кодовые слова Unicode не являются специфическими для языка, однако вопрос о том, "какие языки существуют в этой стране", не может быть и речи (ответ, вероятно, "большинство из них" для большинства стран), но таблица (http://unicode.org/repos/cldr-tmp/trunk/diff/supplemental/territory_language_information.html) по-прежнему можно создавать, осмыслять и полезно.
Что касается того, почему я хотел бы такого: я хотел бы увеличить http://unicodinator.com глобальные тепловые карты для кодовых блоков и списки языков; У меня также есть концепция игры, с которой я возился. Помимо этого, возможно, есть много других применений, которые могли бы сделать другие люди для этого (создание шрифтов? Эвристическое, быстрое, лучшее определение языка теперь, когда API-интерфейс Google Translate уходит?).