Я пытаюсь использовать Spark с Python. Я установил Spark 1.0.2 для бинарного дистрибутива Hadoop 2 на странице downloads. Я могу запустить примеры быстрого запуска в интерактивном режиме Python, но теперь я бы хотел написать автономный Python script, который использует Spark. документация быстрого запуска говорит просто импортировать pyspark
, но это не работает, потому что это не на моем PYTHONPATH.
Я могу запустить bin/pyspark
и увидеть, что модуль установлен ниже SPARK_DIR/python/pyspark
. Я могу вручную добавить это в свою переменную среды PYTHONPATH, но я хотел бы знать предпочтительный автоматический метод.
Каков наилучший способ добавить поддержку pyspark
для автономных скриптов? Я не вижу setup.py
в любом месте каталога установки Spark. Как создать пакет для Python script, который зависит от Spark?