Цель
Я ищу, чтобы очистить данные оценочной карты сверчка 20/20 с веб-сайт Cricinfo, в идеале в форму CSV для анализа данных в Excel
В качестве примера текущие австралийские оценочные карты Австралии Bash 2011/12 доступны из
- Игра 1: http://www.espncricinfo.com/big-bash-league-2011/engine/match/524915.html
- Последняя игра: http://www.espncricinfo.com/big-bash-league-2011/engine/match/524935.html
Фон
Я умею использовать VBA (либо автоматизацию IE
, либо используя XMLHTTP
, а затем используя регулярные выражения) для очистки данных с веб-сайтов, т.е.
Извлечь значения из HTML TD и Tr
В этом же вопросе был опубликован комментарий, предлагающий разбор html - чего я раньше не встречал - поэтому я взглянул на такие вопросы, как теги OpenEx Open, за исключением XHTML автономные теги
Query
Пока я мог писать регулярное выражение для анализа данных крикета ниже, я хотел бы получить совет относительно того, как я мог бы эффективно получить эти результаты с помощью синтаксического анализа html.
Пожалуйста, имейте в виду, что моим предпочтением является повторяемый формат CSV, содержащий:
- дата/имя совпадения
- Имя команды 1
- вывод должен сбрасывать до 11 записей для Team 1 (пустые записи, в которых игроки не сомкневали, т.е. "Не играли" )
- Имя команды 2
- вывод должен сбрасывать до 11 записей для Team 2 (пустые записи, в которых игроки не сомневались)
Nirvana для меня будет решением, которое я смогу развернуть с помощью VBA или VBscript, чтобы я мог полностью автоматизировать мой анализ, но я полагаю, что мне придется использовать отдельный инструмент для анализа html.
Примеры ссылок на сайт и извлеченные данные