Подтвердить что ты не робот

Что после "нырять в питон"

Я хотел бы узнать другой язык, чем java. Поэтому я начал соваться с помощью python. Я перешел "погрузиться в python", поэтому теперь у меня есть приличные знания о python.

где ты предлагаешь мне пойти отсюда? Я не хочу снова переходить к другой расширенной книге и хотел бы использовать знания питона для создания "чего-то".

Я слышал, что python хорош для веб-сканирования, однако я не видел этого в погружении в python. Может ли сообщество предложить, как использовать мое знание pythong для веб-сканеров или пауков?

4b9b3361

Ответ 1

Это действительно зависит от того, что вам нравится или хочется построить. Поскольку вы не сказали, я рекомендую то, что мне понравилось. Программирование коллективного интеллекта Тоби Сегаран - забавная книга, а примеры - в Python. Это может быть более интересно для вас - если не что иное, это даст вашему веб-искателю что-то делать со страницами, которые он собирает.

Изменить: предложение Fusspawn PyGame очень хорошее, если вы не хотите больше книг и просто хотите "погрузиться" в что-то.

Ответ 3

Если вам нравится математика, попробуйте изучить Python, решив проблемы с Project Euler с помощью python. У каждой проблемы не слишком много кода, и это помогло мне увеличить мои навыки python.

Ответ 4

Я всегда нахожу, что создание маленькой игры - отличный способ изучить язык PyGame упрощает и может помочь узнать больше о python. Я предлагаю дать это назад, если вы так склонны.

Ответ 5

Чтобы начать работу с веб-обходом, рассмотрите инфраструктуру Scrapy.

http://scrapy.org/

"Scrapy - это система скремблирования на высоком уровне и веб-сканирование для написания пауков для сканирования и анализа веб-страниц для всех целей, от поиска информации до мониторинга или тестирования веб-сайтов".

Он все еще приближается к первому выпуску, но доступен и имеет приличную документацию.

Для очень простой веб-очистки, проверьте Механизм (для базового веб-браузера) и BeautifulSoup (для разбора "html soup" ):

http://wwwsearch.sourceforge.net/mechanize/

http://www.crummy.com/software/BeautifulSoup/

Одна интересная вещь - объединить эти интересы с некоторыми проектами обработки естественного языка. Книга NLTK, недавно опубликованная O'Reilly, также доступна в Интернете:

http://www.nltk.org/book

Было бы здорово сочетать эти интересы.: -)

Ответ 6

Если вы хотите выйти за пределы веб-сканирования и не хотите запускать свой собственный проект (или не знаете, что делать), проверьте Задача Python. Это игра, в которой вам приходится решать головоломки с небольшим количеством кода на Python. Мне очень понравилось.

Ответ 7

Сканирует ли веб-сайт то, что вы хотите сделать, или просто то, что, по вашему мнению, вы можете сделать? Python - хороший инструмент для веб-сканирования (см. здесь и здесь), но если вы действительно хотите, чтобы любой проект работал над тем, чтобы лучше узнать язык /API, я бы предложил вам выбрать проект, в котором у вас есть общий интерес. Таким образом, это будет легче реализовать, поскольку у вас уже есть интерес к проекту в дополнение к интересам к языку.

Ответ 8

Найдите интересный проект с открытым исходным кодом для участия. Вы можете начать поиск pythonsource или sourceforge.

Ответ 9

Каталог Tools/webchecker/, который должен находиться в вашем дистрибутиве Python (в противном случае вы можете получить его по ссылке, которую я дал), начало - с большим количеством ограничений (без потоков, кроме wsgui.py, без операции async,...), но удаление некоторых из них было бы отличным опытом обучения!

Наверху Twisted может быть построена значительно более совершенная система spidering, например. начиная с фрагмента в нижней части этой почты (которая получает только одну страницу, но по правильному асинхронному пути!) и добавляет другую функциональность вы видите пример в webchecker (проанализируйте и уважайте robots.txt, получите ссылки со страниц и т.д. и т.д.).

Ответ 10

Если вы хотите "продвинутую книгу", я рекомендую Alex Python в двух словах, второе издание, многому научиться из книги, и Tarek Expert Python Programming, мы все знаем, что это продвинутая книга для этого названия:).
Для ознакомления с проектом с открытым исходным кодом рекомендуется SQLAlchemy и Django.
Может быть, попытаться начать собственный проект - это лучший способ.

Ответ 11

Другие сказали это, но я повторю: работа над чем-то, что вас интересует, или это не будет весело.

Если вы решите, что сканер будет забавным, посмотрите google-kongulo, плагин веб-паука для поиска в Google Desktop. Код довольно короткий и хорошо написанный, поэтому это может стать хорошей основой для того, когда вы решите, что хотите обходить.

Ответ 12

Если вы особенно заинтересованы в обходе в Интернете, просмотрите трехчастный разговор под названием "Очистить веб", указанный в PyCon 2009. Это часть этого RSS-канал.