Как создать изображение данных данных, например, "Набор данных распознавания букв" из UCI

Я использую пример letter_regcog из OpenCV, он использовал набор данных из UCI, который имеет такую структуру:

Attribute Information:
     1. lettr   capital letter  (26 values from A to Z)
     2. x-box   horizontal position of box  (integer)
     3. y-box   vertical position of box    (integer)
     4. width   width of box            (integer)
     5. high    height of box           (integer)
     6. onpix   total # on pixels       (integer)
     7. x-bar   mean x of on pixels in box  (integer)
     8. y-bar   mean y of on pixels in box  (integer)
     9. x2bar   mean x variance         (integer)
    10. y2bar   mean y variance         (integer)
    11. xybar   mean x y correlation        (integer)
    12. x2ybr   mean of x * x * y       (integer)
    13. xy2br   mean of x * y * y       (integer)
    14. x-ege   mean edge count left to right   (integer)
    15. xegvy   correlation of x-ege with y (integer)
    16. y-ege   mean edge count bottom to top   (integer)
    17. yegvx   correlation of y-ege with x (integer)

Пример:

T,2,8,3,5,1,8,13,0,6,6,10,8,0,8,0,8
I,5,12,3,7,2,10,5,5,4,13,3,9,2,8,4,10

теперь у меня есть сегментированное изображение буквы и вы хотите преобразовать его в данные, подобные этому, чтобы распознать его, но я не понимаю среднего значения, как "6. onpix total # на пикселях", что это значит? Не могли бы вы объяснить это значение. спасибо.

Ответ 1

Я не знаком с примером OpenCV letter_recog, но это, как представляется, вектор функции или набор статистических данных об изображении буквы, которая используется для классификации будущих вхождений буквы. Результаты вашей сегментации должны оставить вам двоичную маску с 1 на букву и 0 всюду. onpix - это просто общее количество пикселей, которые попадают на букву, или, другими словами, сумму вашей бинарной маски.

Большинство остальных значений в списке необходимо рассчитывать на основе набора пикселей со значением 1 в вашей двоичной маске. x и y - это только позиция пикселя. Например, x-bar - это всего лишь примерное среднее всех позиций x всех пикселей, которые имеют 1 в маске. Вы должны иметь возможность легко находить ссылки в Интернете для математических определений среднего значения, дисперсии, ковариации и корреляции.

14-17 немного отличаются, так как они основаны на краевых пикселях, но вычисления должны быть похожими только на другой набор пикселей.

Ответ 2

Меня зовут Антонио Бернал. На странице 3 этой статьи вы найдете хорошее описание для каждого значения. Распознавание писем с использованием адаптивных классификаторов Голландского стиля. Если у вас есть какие-либо сомнения, дайте мне знать. Я пытаюсь сделать этот алгоритм работы, но моя проблема в том, что я не знаю, как масштабировать значения, чтобы они соответствовали диапазону 0-15. Вы не знаете, как это сделать?