Каково значение Kanatype Sensitive KS и чувствительность к ширине

При создании новой базы данных мне пришлось установить тип сортировки или установить ее значение по умолчанию.... fine.

Но на самом деле мне нужно знать, что означает чувствительность Kanatype Sensitive (KS) и чувствительность к ширине, известная мне, например, чувствительность к регистру означает, что буквы чувствительны к верхним и нижним регистрам, что касается чувствительности к канату и чувствительности к ширине??

Ответ 1

Оба имеют отношение к сортировке, и обычно вы не выбираете эти два параметра. Вот описание сущности Microsoft.

Чувствительность к каналу

Различает два типа японских символов каны: Хирагана и Катакана.

Если этот параметр не выбран, SQL Server рассматривает Hiragana и Персонажи Катакана должны быть равны для целей сортировки

Чувствительность по ширине

Различает однобайтовый символ и тот же символ при представлении в виде двухбайтового символа.

Если этот параметр не выбран, SQL Server рассматривает однобайтовый и двухбайтовое представление одного и того же символа одинаково для сортировки.

Ответ 2

TL; DR:

Нечувствительность к Kanatype делает сортировку японского текста более интуитивно понятной и, как правило, всегда должна быть включена, если у вас нет причин не делать этого.

ПОЛНОЕ ОБЪЯСНЕНИЕ:

В общем, если вы храните любой японский текст, который нужно отсортировать, вы, вероятно, захотите использовать нечувствительный к Kanatype. Зачем тебе это так? Потому что это делает сортировку более понятной с точки зрения японского языка.

В английском, поскольку у нас есть только одна система письма, легко сортировать вещи алгоритмически. Мы просто упорядочиваем символы по их кодам (уже в алфавитном порядке), и все готово. Однако на японском языке, поскольку существует несколько способов записи эквивалентных звуков, сортировка может стать немного сложнее. Алфавиты хирагана и катакана разделены на отдельные блоки Unicode, поэтому, когда мы пытаемся сортировать вещи с "чувствительностью к канатипу", мы получаем результаты, которые не являются полностью интуитивными.

Представьте, что у вас есть список имен, которые вы хотите отсортировать:

{"ピカチュウ", "さとし", "マリオ", "まちだ", "はるか"}

Романизированный эквивалент списка:

{"Пикачу", "Сатоши", "Марио", "Мачида", "Харука"}

При сортировке чувствительных к kanatype вы получите следующий результат:

{"さとし", "はるか", "まちだ", "ピカチュウ", "マリオ"}

{"Сатоши", "Харука", "Мачида", "Пикачу", "Марио"}

При сортировке нечувствительного к типу kanatype вы получите следующий результат:

{"さとし", "はるか", "ピカチュウ", "まちだ", "マリオ"}

{"Сатоши", "Харука", "Пикачу", "Мачида", "Марио"}

Для говорящих на японском языке второй вид намного более интуитивен, так как результаты на самом деле сортируются по фонетическому принципу, а не по наборам символов. "まちだ" и "マリオ" начинаются с одного и того же фонетического звука, но поскольку один использует хирагану "ма", а другой - катакану "ма", они разделяются, когда включена чувствительность к канатипу. С учетом нечувствительности к канатипу список можно правильно отсортировать, чтобы два слова появлялись в списке рядом друг с другом, несмотря на различия в их системе записи.

Хорошая аналогия для английского языка - чувствительность к регистру. Представьте, что вы хотите отсортировать список слов для словаря, некоторые из которых являются собственными существительными, а другие нет:

{"New York", "new", "jet", "Japan", "squirm", "SQL"}

Если бы мы игнорировали тот факт, что заглавные и строчные буквы представляют одну и ту же букву и просто сортировали по символьному коду, мы получили бы что-то вроде этого:

{"Japan", "New York", "SQL", "jet", "new", "squirm"}

Подобный словарь вряд ли будет полезен, особенно если мы хотим найти слово, не зная, начинается ли оно с заглавной или строчной буквы. Мы должны были бы проверить первую часть словаря со всеми собственными существительными, прежде чем проверять последнюю часть со всеми другими словами.

Если мы запустили сортировку без учета регистра, которая рассматривает "A" и "a" как одну и ту же букву, несмотря на наличие отдельных кодов символов. Мы бы получили более интуитивный результат:

{"Japan", "jet", "new", "New York", "squirm", "SQL"}

В общем, если у вас нет особых причин не делать этого, вы всегда должны отключать чувствительность к канатипу. Поиск в телефонной книге будет чувствителен к канатипу. Обратите внимание, что в японском языке есть также дополнительный тип символов, кандзи, с которым вам также придется работать. Кандзи гораздо сложнее отсортировать, так как почти всегда есть несколько способов прочитать каждый кандзи, и нет реального "алфавитного" порядка кандзи. В большинстве форм, предназначенных для японцев, обычно есть два поля для имен: имя пользователя, как оно обычно написано, и имя пользователя, полностью написанное в катакане. Это не только позволяет людям узнать, как правильно произносить имя, которое может быть неоднозначно написанным исключительно на кандзи, но также позволяет программному обеспечению сортировать по однозначному полю только для катакана, что делает нечувствительным к типу kanatype.

Для получения дополнительной информации я определенно рекомендую ознакомиться с этой прекрасной статьей, в которой проблемы с сортировкой на японском языке объясняются гораздо лучше, чем я.

Ссылка: https://japanese.stackexchange.com/info/29612/what-do-you-need-kanatype-sensitivity-for