Подтвердить что ты не робот

Как анализировать сообщения твиттера? (улучшая мой алгоритм)

У меня была хорошая идея реализовать. Я называю это

FixTheUnFixed

Идея идет так, представьте, что вы едете или путешествуете по всему миру, и когда вы видите какое-то препятствие или повреждение - сломанный свет, мусор, который покрывает всю улицу или любую другую проблему, которую вы хотели бы, чтобы ответственный орган исправит ее.

все, что вам нужно сделать, это твит что-то подобное, и вы можете добавить фотографию и, конечно, место, используя службу определения наследования приложений Twitter или Facebook.

Tweet следующим образом:

@FixTheUnFixed there is a broken fire hydrant here
@FixTheUnFixed my cellular company charged me 18,572$
  for using my iPhone aboard.

Я много думал о том, как обрабатывать сообщения. большинство проблем, которые возникнут, - это проблемы муниципалитета, и я хотел бы получить местонахождение и повторить чириканье в соответствующем муниципалитете или отправить им электронное письмо.

мои две идеи для получения этого адреса - google it (с API Google).

псевдо-алгоритм:

1. get the location the Twitter or Facebook status sent from.
2. look for key words such as trash, cats, animals etc.
3. finding the relevant authority e-mail , twitter or Facebook account.
4. send the message to the authority account and re-tweet it to the public
     world so they can follow if there is any change.
  • В 3. @algo есть ли какой-нибудь умный способ его реализовать?
  • Я не хочу спамить власти и не публиковать спам подлый человек.
  • Как улучшить алгоритм выше?
  • Как я могу найти коммуникационные ресурсы для решения проблемы власти?
4b9b3361

Ответ 1

Я думаю, что правильная вещь - использовать существующую библиотеку NLP, такую ​​как Библиотека Stanford nlp.

В том числе:

  • Stanford CoreNLP
  • Стэнфордский парсер
  • Классификатор Стэнфорда

В качестве альтернативы вы можете использовать opennlp или nltk. Если структура NLP находится в java, и вы хотите использовать python или ruby, поскольку OP хочет проверить jruby и jython вне.

Ответ 2

Мое предложение - начать с использования Amazon Mechanical Turk - заплатить реальным людям крошечную плату за каждый твит, который они обрабатывают. Им нужно будет определить, был ли это спам или нет, тогда, если они законны, они будут искать правильную контактную информацию муниципалитета. Между тем собирайте подробную статистику по каждому обрабатываемому твиту, из которого вы можете создать базу данных. Например, вы сможете увидеть, что все твиты, содержащие "Мусор" и "Чикаго", генерируют ответ с определенным номером телефона. Получив достаточное количество данных, вы можете использовать его для автоматизации обычных/четко заданных входящих твитов и постепенно строить оттуда, постоянно совершенствуя свои данные и ассоциации, используя исследования, проведенные турками.

Было бы также предлагать только внедрить услугу для ограниченных областей для начала - например, в Нью-Йорке или Лондоне. (Или самый большой город, где бы вы ни находились) Таким образом, информация, необходимая для начала, намного меньше.

Ответ 3

В качестве первого шага к вашему решению я бы предложил включить широту/долготу в SimpleGeo (у них есть библиотека iOS): http://simplegeo.com

Используя что-то вроде "Найти границы, связанные с местоположением", вы можете получить информацию об округе, муниципалитете, законодательном округе и т.д., которые могут предоставить вам вспомогательные метаданные, а также несколько выходов для поиска контактной информации:

https://simplegeo.com/docs/api-endpoints/simplegeo-context#find-boundaries-surrounding-location

Например, я уверен, что вы можете превратить законодательный округ в адрес электронной почты члена конгресса через некоторые общедоступные веб-сайт/API. Возможно, отправите в свой офис двухнедельную или ежемесячную периодическую электронную почту всех зарегистрированных проблем в своем районе и окажут давление на выборных должностных лиц для принятия соответствующих изменений?

Другим вариантом может быть отображение вашей базы данных о зарегистрированных проблемах на общедоступном веб-сайте и сбор соответствующей контактной информации через источник толпы. Разрешить членам веб-сайта добавлять/обновлять адреса электронной почты, которые могут использоваться для текущих проблем и проблем, которые вы можете получить для того же места в будущем.

Ответ 4

ifttt.com можно было бы использовать для этого? его сервис для автоматизации действия на основе ваших пользовательских критериев.

возможно, вы могли бы с ними связаться?