Как разработать программу для минимизации ошибок в транскрипции ручных письменных опросов человека

Мне нужно разработать собственное программное обеспечение для проведения опросов. Вопросы могут иметь множественный выбор или бесплатный текст в очень немногих случаях.

Мне было предложено создать подсистему, чтобы проверить, есть ли какая-либо ошибка в ручном вводе данных для части нескольких вариантов. Мы пытаемся ускорить процесс ввода пользовательских данных и свести к минимуму различия между человеческими ресурсами между цифровыми формами и исходными вопросниками. Опросы заполняются рукописными знаками и текстом интервьюеров для людей, поэтому можно найти трудночитаемые отметки, а также пользователь может случайно выбрать другое значение в каком-то вопросе, и мы хотели бы избежать этого.

Программное обеспечение должно содержать некоторое автоматическое управление для обнаружения возможных различий в типе. Каждый ответ из вопросов с множественным выбором имеет ту же вероятность выбора.

Этот вопрос состоит из двух частей:

Графический интерфейс.

Самая простая вещь, которую я имею в виду, - это реализовать наиболее удобный дизайн отображения вопросов: использование больших и читаемых шрифтов и пространства великодушно. Есть что-то еще? Для более быстрого ввода я хотел бы использовать выпадающие списки (предпочитая клавиатуру над мышью). Учитывая, что вопросы сгруппированы по разделам, я хотел бы показать ответы, отобранные для вопросов этого раздела, но это может замедлить процесс. Любые другие идеи?

Подсистема проверки ошибок.

Что еще я могу сделать, чтобы свести к минимуму или проверить человеческие опечатки в вопросах множественного выбора? Является ли это решаемой проблемой? существует ли какая-то статистическая методология для проверки значений, введенных пользователями, одинаковы из заполненных вручную форм? Например, предположим, что опрос имеет 5 вопросов, и каждый из них имеет 4 варианта. Скажем, у меня есть анкеты для опроса, заполненные в интервью интервьюерами, и они готовы к вступлению в программное обеспечение, а затем, как свести к минимуму случайные различия, которые могут иметь ручную транскрипцию n опросов, без необходимости дважды проверять все в 5 вопросов российских опросов?

Мое первое предложение состоит в том, что в конце обработки всех заполненных вручную форм программное обеспечение может произвольно выбирать некоторые формы, чтобы выполнить двойную проверку ответов в нескольких случаях, но по каким критериям я могу сделать этот выбор? Этого подтверждения было бы достаточно, чтобы охватить все существенным образом?

Фактический опрос - это уровень нации, и он содержит 56 страниц с более чем 200 вопросами в целом, поэтому многие люди будут писать вручную много людей, и намерение состоит в уменьшении вероятности ошибок и оптимизации скорости в процесс ввода данных. Сначала опросы должны быть заполнены в документе, учитывая сложности приема ноутбуков или карманных компьютеров с интервьюерами.

Ответ 1

Назовите меня старой школой, но я по-прежнему считаю, что самый прагматичный способ сделать это - использовать двойную запись. Два сотрудника по вводу данных вводят свои опросы, затем свопируют стеки и вводят другие опросы клерков. Всякий раз, когда ваша система обнаруживает разницу между ними, она подбрасывает флаг - тогда два клерка объединяют свои головы и принимают правильный ответ (или, может быть, он проверяется более старшим сотрудником научного сотрудника и т.д.). В сочетании с некоторыми другими предложениями здесь (мне очень нравятся предложения mdma для графического интерфейса), это создало бы систему с низкой ошибкой.

Да, это удвоит ваше время ввода данных (возможно), но оно будет простым и будет сокращать ваши ошибки, а затем вниз. Идея OMR отличная, но для меня это не похоже, как этот проект (национальный, 52-страничный опрос) - лучший случай, когда одинокий хакер пытается реализовать это в первый раз. Какое программное обеспечение вам нужно? Какое оборудование доступно для этого? Там будет еще много человеческой работы, связанной с выявлением тупой вещи, где интервьюер отмечает все четыре возможных ответа, а затем записывает заметку в сторону - вы, скорее всего, захотите случайно опробовать опросы, чтобы понять, что такое машина коэффициент ошибки чтения. Даже тогда вы все еще просто оцениваете коэффициент ошибок, а не исправляете данные.

Попробуйте более простой метод, чтобы дать результаты качества вашего работодателя на этот раз - затем используйте эти результаты в качестве предварительно проверенного набора данных для экспериментов с материалами OMR в следующий раз.

Ответ 2

OCR/OMR, вероятно, лучший выбор, поскольку вы исключаете непредсказуемую человеческую ошибку и заменяете ее довольно предикативной машинной ошибкой. Возможно, даже будет возможно отфильтровать формы, с которыми может столкнуться OCR, и внести эти поправки для улучшения точности сканирования.

Но, решая исходный вопрос:

Проверка ошибок

заданы вопросы, поэтому, по сути, одно и то же задается более одного раза или снова спрашивается в негативе. Если ответы на коррелированные вопросы также не коррелируют, это может быть признаком ошибки ввода.
отклонения от нормы: если в типичных ответах есть шаблоны, то отклонения от этих типичных ответов могут считаться потенциальными ошибками ввода. Например. если вопросы 2 и 3 отвечают А, тогда вопрос для, вероятно, будет С или D. Это обобщение корреляции выше. Корреляции могут быть вычислены динамически на основе уже введенных данных.

GUI

графический пользовательский интерфейс имитирует бумажную форму, так что записи на бумаге отражаются на экране. Вводный ответ на вопрос в неправильном вопросе в графическом интерфейсе менее вероятен.
предоставлять визуальную помощь клеркам ввода данных, например, использовать ползунок для сохранения текущего местоположения вопроса на бумаге.
Пользовательское устройство ввода для ввода данных может быть проще в использовании, чем клавиатурная навигация и списки. Например, сенсорный дисплей со всеми параметрами, описанными в B C D. Клерк должен только нажать кнопку, и он выбран, а следующий вопрос - после короткой паузы. В случае, если клерк делает ошибку, они могут использовать кнопки prev/next рядом с каждым вопросом.
предоставлять аудиоотчет введенных данных, поэтому, когда клерк входит в "A", они слышат "A".

EDIT: Если вы рассматриваете возможность двойного ввода данных или реализации улучшенного графического интерфейса, может оказаться целесообразным провести экспериментальную схему для оценки эффективности различных подходов. Двойной вход может быть дорогостоящим (удвоение стоимости задачи ввода данных), что может быть оправдано или не может быть оправдано улучшением точности. Пилотная схема позволит вам оценить эффективность двойного входа, быстро и относительно недорого. Это также даст вам представление об уровне ошибки у одного сотрудника по вводу данных без каких-либо изменений в пользовательском интерфейсе, что может помочь определить, нужны ли изменения пользовательского интерфейса или другие стратегии снижения ошибок и сколько можно оправдать стоимость их реализации.

Ссылки по теме

Устройство, которое вводит данные из нескольких тестов выбора
Википедия: OMR - распознавание оптических знаков
ReadSoft - Автоматический ввод данных
Оборудование для сбора данных

Ответ 3

Мое первое предположение заключается в том, что в конце обработки всех заполненных вручную форм программное обеспечение могло произвольно выбирать некоторые формы, чтобы выполнить двойную проверку ответов в нескольких экземплярах.

Я не думаю, что это действительно приведет к значимому результату. Предположительно, ошибки являются непреднамеренными и случайными. Случайные проверки обнаружат системные ошибки, но вы найдете только 10% случайных ошибок, если дважды проверьте 10% форм (и 20% ошибок, если вы проверите 20% форм и т.д.).

Как выглядят бумажные обзоры? Если возможно, я бы предположил, что система OCR, которая сканирует рукописные тесты и сравнивает то, что OCR определяет, что ответ отвечает тому, что дал оператор ввода данных, будет лучшим решением. Вы все еще можете вручную проверить двойное количество опросов, но у вас будет определенная уверенность в том, что опросы, которые вы дважды проверяете, скорее всего будут содержать ошибку, чем если бы вы просто выбрали их случайно.

Если вы также контролируете то, что выглядят бумажные опросы, то это еще лучше: вы можете их специально спроектировать, чтобы OCR можно было сделать максимально точным.

Ответ 4

Простите меня за то, что я полностью встал на этот вопрос, но вчера я отправился на eBay и заплатил 99 долларов США за 7-дюймовый Android-планшет Android o/s. Не мировой пастерный процессор, ни кучи ОЗУ, но, конечно, достаточно для заполнения пользовательских опросов в поле.

Я не могу поверить, что ваша организация не может позволить себе 99 долларов за интервьюера, чтобы эта проблема исчезла.

Стоит ли предлагать вашему боссу, по крайней мере, не так ли?

Ответ 5

Я бы поддержал предложение Мэтта Паркера использовать двойную запись для уменьшения ошибок. Я даже видел тройную запись, используемую для очень чувствительных к ошибкам задач ввода данных.

Хорошая вещь о двойной записи - это вы можете придумать приблизительную оценку вашего общего коэффициента ошибок, сделав некоторые предположения (в основном, что коэффициент ошибок согласован между элементами входа и клерками) и с использованием скорости, с которой вход конфликты.

Более сложные системы с двойным входом могут также измерять частоту ошибок частей задачи ввода данных и отдельных клерков, чтобы вы могли сделать улучшения для снижения частоты ошибок.

Ответ 6

Похоже, что существует необходимость в комбинированном подходе, фактические формы должны быть пригодны для автоматической обработки. Вы можете сканировать документы и просто иметь дело с электронной версией, если вход с множественным выбором может автоматически обрабатываться, вы можете получить более высокие коэффициенты ошибок, оставив пользователя вне цикла. В зависимости от пакета OCR я бы предположил, что вы получите возвращаемое значение, которое подскажет вам, насколько уверенная система в выборе, который она сделала, в зависимости от этого значения вы хотите, чтобы форма была подтверждена человеком. Примечание. Я говорю об использовании ocr в методах множественного выбора, а не в файлах свободной формы, что, вероятно, само по себе.

Параллельно вы, вероятно, захотите сделать случайные проверки, чтобы найти коэффициент ошибок системы ocr. Затем это значение можно использовать для определения доверительного значения для суммы вопроса с множественным выбором.

Я думаю, что подобный подход был бы полезен, если бы вы просто пошли с человеком, вы, вероятно, не избавитесь от всех ошибок, потому что люди будут делать ошибки, и они будут исправлять ошибки ошибок, но с достаточно большим размером выборки вы вероятно, сможет определить отношение ошибок в человеческом вводе. Затем это число можно использовать для определения результатов опроса.

Как и в других идеях пользовательского интерфейса, вы можете использовать отсканированные формы и накладывать пользовательский интерфейс таким образом, чтобы флажок пользовательского интерфейса был близок к записанному флажку. Если у вас есть пара известных линий под углами, выпрямление и масштабирование формы не должно быть слишком сложным. Если элемент ввода пользовательского интерфейса близок к меткам карандаша, возможно, вы получите более высокие тарифы для правильной классификации.

Вы также можете использовать статистический анализ для выбора форм, которые кажутся несовместимыми, но тогда вы можете перекосить результат путем неравномерного выбора, который может быть хуже, чем равномерная случайная ошибка. В зависимости от дизайна обзора бумаги, возможно, было бы полезно скопировать это в пользовательском интерфейсе, всем будет легче найти ошибки, если они будут выглядеть одинаково, если вы не придерживаетесь этого, некоторые из ссылок на опрос дизайн (например этот мог бы быть полезен.

Это, по-видимому, довольно большая операция, я уверен, что есть некоторые статистики по персоналу, поговорите с ними о том, что им нужно, и что вы можете сделать, чтобы помочь им, и не должны делать, чтобы исказить результаты еще больше.

Ответ 7

После того, как вы внедрили свое лучшее сочетание программных подходов к этой проблеме, вы также можете рассмотреть возможность запуска вывода через программа Amazon Mechanical turk и выполнить человеческую перекрестную проверку транскрипции на оригиналы. Другие проекты в этом направлении reCaptcha (хотя это только для печатного текста OCR, насколько я могу судить), и я просто натолкнулся Beextra, который, похоже, делает такие вещи, как каталогизация Смитсоновских носителей.

Ответ 8

Что касается обнаружения ошибок в транскрипции ответов с множественным выбором, я предлагаю использовать несколько пользователей ввода данных и статистическое профилирование.

Статистик мог бы сравнить результаты, чтобы узнать, выделяются ли какие-либо вопросы как имеющие явно различное распределение ответов для ответов, введенных одним пользователем ввода данных, и другими. Если это так, то эти вопросы могут быть помечены для повторного ввода из форм.

Предполагая, что формы случайным образом назначаются персоналу ввода данных, введенные результаты должны иметь довольно похожие распределения ответов для достаточно большого числа форм для каждого пользователя ввода данных.

Ответ 9

Человеческая двойная проверка, вероятно, является самым популярным способом достижения низкого числа ошибок., Если вы хотите ускорить его, один человек может рассчитать общее количество заданных ответов и записать этот номер в нижней части опроса (вроде "контрольной суммы" ). Лицо, которое вводит данные в ваше приложение, должно также заполнить этот номер в специальном поле, а затем система может рассчитать количество заданных ответов и сравнить их с ожидаемым значением. Это может решить проблему правильного количества, но не корректность данных.

Вы также можете использовать некоторые методы из data-minig для обнаружения ошибок во вставленных данных. Пример: если вы задаете диапазон возраста и зарплаты, вы можете создать правило, в котором говорится: если age < X, скорее всего, человек не зарабатывает больше, чем Y, поэтому дайте предупреждение и попросите пересмотреть. Это называется правила ассоциации

GUI: это должно быть 1:1 для представления бумажной формы. некоторые быстрые клавиши могут быть полезны для ускорения работы.

Ответ 10

Как уже упоминалось, введите его дважды. Да, это "удваивает работу", но это приводит к пункту 2.

Сделайте опросы ЛЕГКО К КЛЮЧУ.

Они должны быть просты для чтения для ключей. С разделом относительно их внимания, хорошо выделенного, так что он выделяется из-за шума формы.

Твой "GUI" не должен быть. Основным преимуществом GUI является "открытость", эти люди не должны "открывать" что-либо. Навигация по клавиатуре должен быть "единственным" способом, как только они начинают вводить информацию. Одна или две руки на клавиатуре, одна рука для изменения страницы опроса - нет рук для мыши. Внимание к экрану (для мыши или всего на самом деле) - это внимание от опроса для ввода ключей.

Ключи должны быть "голова вниз" и вообще не смотреть на экран. Если это практично, вы можете использовать звуковые подсказки, чтобы сообщить операторам, где они переключали страницы, чтобы гарантировать, что то, что они используют, и то, что использует компьютер, в основном одно и то же. Если звуковые подсказки невозможны, просто попросите людей входа на странице опроса, что они включены. Компьютер уже "знает" его на странице "2", и поэтому, когда ключи клавиш на номере страницы, он может подтвердить, что они находятся на одном и том же месте.

DO используйте звуковые подсказки для ошибок при наборе. Не позволяйте им вставлять мусор, ударять "сохранить", а затем исправлять ошибки. Если вы ЗНАЕТЕ данные некорректны сразу, остановите их и немедленно их исправьте. Ничто не привлекает их внимания, чем 5 или 6 "ding ding dings", потому что они уже вводят 3 поля позже, прежде чем они поймут, что компьютер остановил их. Аудит длинной анкеты для ошибок - пустая трата времени.

НЕ "прокручивайте" свои экраны данных. Страница взад и вперед. Прокрутка отстой. Когда вы прокручиваете, поля на экранах перемещаются. Когда вы этого не делаете, они всегда находятся в одном и том же месте, поэтому, когда человек, которому требуется вход, должен смотреть на экран, он всегда может смотреть на одно и то же место.

Из-за этого выпадающие списки любой длины - сосать. В любом случае они не должны использовать выпадающие списки, так как в любом случае они не должны смотреть на экран. Форма должна СДЕЛАТЬ ИХ ТОЧНО, что им нужно сделать.

Будьте в согласии с вводом данных. Используйте ключ 10 как можно больше. Если у вас более 10 вариантов, а 0-9 не подходит для всей анкеты, вы должны использовать 00-99. Не используйте A-Z для опций, так как люди так не думают о клавишах. Они не запоминают буквы на клавиатуре так же, как запоминают шаблоны слов на клавиатуре. 01-26 намного быстрее, чем A-Z в любой день недели.

Кроме того, клавиша SHIFT НЕ является вашим другом. Но все будет хорошо, когда они будут в режиме "ввода английского".

Наконец, организуйте опрос, чтобы все "набрав", "заполнить пустые" вещи были в одном разделе (в идеале в конце). Это позволяет им удерживать 10 ключей в пламени, попасть в зону и не перемещать руки назад и вперед. Многие люди будут "высвечивать ключевые" цифры при наборе "английский" (т.е. Использовать верхнюю строку) и 10 номеров клавиш, если нет.

Ответ 11

Для вопросов с множественным выбором кажется, что автоматическое сканирование будет достаточно надежным. Если у вас есть возможность сканирования во всех документах до начала ввода данных, включите сканирование в пользовательский интерфейс с угаданными компьютерами.

Для вопроса с множественным выбором, введите форму ввода данных с одной стороны и оригинальное сканирование с другой стороны. Если догадка компьютера выше определенного порога, заполните этот выбор в области ввода данных. Если компьютер догадывается ниже определенного порога (несколько ответов или ответа не найдено), то не отмечайте начальный ответ и выделите этот вопрос, поскольку это необходимо для внимания. Даже без догадок, кажется, что сканированная бумага, видимая на экране рядом с вводом данных, оказывается полезной.

Для рукописных ответов у меня нет реальных предложений, кроме сканированного ввода рядом с областью ввода данных. Даже если изображение не столь разборчиво, как исходный документ, это поможет обеспечить правильный текст для каждого вопроса. Довольно распространенная ошибка ввода должна быть отключена одним, где правильный ответ вводится для неправильного вопроса. Наличие изображения на экране может немного уменьшить его и облегчить проверку другого человека.

Это предполагает, что все формы идентичны в макете, поэтому вы можете написать код для отображения определенной части определенной страницы и ожидать, что она будет правой частью формы.

Ответ 12

Создайте замкнутую систему.

Вы должны время от времени вводить двойные слепые "ссылочные формы", которые должны быть введены вашим обычным персоналом, чтобы автоматически оценивать их эффективность и предоставлять обратную связь на основе коэффициента успеха.

Это будет контролировать мотивацию человеческого фактора и исключить основной источник ошибок ввода.