Мне нужно разобрать транскрипцию чата. Моя первая мысль, увидев файл, заключалась в том, чтобы бросать регулярные выражения в проблему, но мне было интересно, какие другие подходы люди использовали.
Я ставлю элегантный в названии, поскольку ранее я обнаружил, что этот тип задачи может быть трудно поддерживать, просто полагаясь на регулярные выражения.
Транскрипты создаются по адресу www.providesupport.com и отправляются по электронной почте в учетную запись, после чего я извлекаю вложенное текстовое вложение из электронной почты.
Причиной разбора файла является извлечение текста беседы на потом, а также идентификация имен посетителей и операторов, чтобы информация могла быть доступна через CRM.
Вот пример файла расшифровки:
Chat Transcript
Visitor: Random Website Visitor
Operator: Milton
Company: Initech
Started: 16 Oct 2008 9:13:58
Finished: 16 Oct 2008 9:45:44
Random Website Visitor: Where do i get the cover sheet for the TPS report?
* There are no operators available at the moment. If you would like to leave a message, please type it in the input field below and click "Send" button
* Call accepted by operator Milton. Currently in room: Milton, Random Website Visitor.
Milton: Y-- Excuse me. You-- I believe you have my stapler?
Random Website Visitor: I really just need the cover sheet, okay?
Milton: it not okay because if they take my stapler then I'll, I'll, I'll set the building on fire...
Random Website Visitor: oh i found it, thanks anyway.
* Random Website Visitor is now off-line and may not reply. Currently in room: Milton.
Milton: Well, Ok. But… that the last straw.
* Milton has left the conversation. Currently in room: room is empty.
Visitor Details
---------------
Your Name: Random Website Visitor
Your Question: Where do i get the cover sheet for the TPS report?
IP Address: 255.255.255.255
Host Name: 255.255.255.255
Referrer: Unknown
Browser/OS: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2; .NET CLR 1.1.4322; InfoPath.1; .NET CLR 2.0.50727)