Как вы принимаете абзац или большую сумму текста и разбиваете его на предложения (с использованием Ruby), принимая во внимание такие случаи, как г-н и д-р и U.S.A? (Предполагая, что вы просто помещаете предложения в массив массивов)
UPDATE: Одно из возможных решений, о которых я думал, включает использование тегатора части речи (POST) и классификатора для определения конца предложения:
Получение данных от мистера Джонса ощущало теплое солнце на его лице, когда он вышел на балкон своего летнего дома в Италии. Он был счастлив быть живым.
КЛАССИФИКАТОРОВ Г-н/ПЕРСОН Джонс/ЧЕЛОВЕК чувствовал /O/O тепло/O солнце /O включен/O его /O лицо/O как /O он/O ступил /O out/O на /O балкон/O/O his/O summer/O home/O in/O Italy/LOCATION./O He/O was/O happy/O to/O be/O alive/O./O
POST Г-н/ННП Джонс/ННП почувствовал /VBD the/DT warm/JJ sun/NN on/IN his/PRP $face/NN as/IN he/PRP stepped/VBD out/RP на /IN the/DT балкон /NN/IN его/PRP $summer/NN home/NN in/IN Italy./NNP Он /PRP был/VBD happy/JJ to/TO be/VB alive./IN
Можно ли считать, что, поскольку Италия - это место, период является допустимым окончанием предложения? С окончанием на "г-н" не будет других частей речи, можем ли мы предположить, что это не действительный период конца предложения? Это лучший ответ на мой вопрос?
Мысли?