Matplotlib: как предотвратить наложение меток на оси x друг на друга

Я создаю бар-диаграмму с matplotlib. Все работает хорошо, но я не могу понять, как помешать ярлыкам оси х перекрывать друг друга. Вот пример:
Вот пример SQL для базы данных postgres 9.1:

drop table if exists mytable;
create table mytable(id bigint, version smallint, date_from timestamp without time zone);
insert into mytable(id, version, date_from) values

('4084036', '1', '2006-12-22 22:46:35'),
('4084938', '1', '2006-12-23 16:19:13'),
('4084938', '2', '2006-12-23 16:20:23'),
('4084939', '1', '2006-12-23 16:29:14'),
('4084954', '1', '2006-12-23 16:28:28'),
('4250653', '1', '2007-02-12 21:58:53'),
('4250657', '1', '2007-03-12 21:58:53')

И это мой python- script:

# -*- coding: utf-8 -*-
import psycopg2
import matplotlib.pyplot as plt
fig = plt.figure()

# for savefig()
import pylab

### Connect to database with psycopg2

  conn_string="dbname='x' user='y' host='z' password='pw'"
  print "Connecting to database\n->%s" % (conn_string)

  conn = psycopg2.connect(conn_string)
  print "Connection to database was established succesfully"
  print "Connection to database failed"

### Execute SQL query

# New cursor method for sql
cur = conn.cursor()

# Execute SQL query. For more than one row use three '"'

-- In which year/month have these points been created?
-- Need 'yyyymm' because I only need Months with years (values are summeed up). Without, query returns every day the db has an entry.

SELECT to_char(s.day,'yyyymm') AS month
      ,count(t.id)::int AS count
   SELECT generate_series(min(date_from)::date
                         ,interval '1 day'
          )::date AS day
   FROM   mytable t
   ) s
LEFT   JOIN mytable t ON t.date_from::date = s.day
GROUP  BY month
ORDER  BY month;


# Return the results of the query. Fetchall() =  all rows, fetchone() = first row
  records = cur.fetchall()

  print "Query could not be executed"

# Unzip the data from the db-query. Order is the same as db-query output
year, count = zip(*records)

### Plot (Barchart)

# Count the length of the range of the count-values, y-axis-values, position of axis-labels, legend-label
plt.bar(range(len(count)), count, align='center', label='Amount of created/edited points')

# Add database-values to the plot with an offset of 10px/10px
ax = fig.add_subplot(111)
for i,j in zip(year,count):
    ax.annotate(str(j), xy=(i,j), xytext=(10,10), textcoords='offset points')

# Rotate x-labels on the x-axis

# Label-values for x and y axis
plt.xticks(range(len(count)), (year))

# Label x and y axis
plt.ylabel('Amount of created/edited points')

# Locate legend on the plot (http://matplotlib.org/users/legend_guide.html#legend-location)

# Plot-title
plt.title("Amount of created/edited points over time")

# show plot

Есть ли способ предотвратить перекрытие ярлыков друг от друга? Идеально в автоматическом режиме, потому что я не могу предсказать количество баров.


Ответ 1

Изменить 2014-09-30

pandas теперь имеет функцию read_sql. Вы определенно хотите использовать это вместо этого.

Оригинальный ответ

Здесь вы должны преобразовать свою строку даты в реальные объекты datetime:

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
data_tuples = [
    ('4084036', '1', '2006-12-22 22:46:35'),
    ('4084938', '1', '2006-12-23 16:19:13'),
    ('4084938', '2', '2006-12-23 16:20:23'),
    ('4084939', '1', '2006-12-23 16:29:14'),
    ('4084954', '1', '2006-12-23 16:28:28'),
    ('4250653', '1', '2007-02-12 21:58:53'),
    ('4250657', '1', '2007-03-12 21:58:53')]
datatypes = [('col1', 'i4'), ('col2', 'i4'), ('date', 'S20')]
data = np.array(data_tuples, dtype=datatypes)
col1 = data['col1']
dates = mdates.num2date(mdates.datestr2num(data['date']))
fig, ax1 = plt.subplots()
ax1.bar(dates, col1)

Получение простого списка кортежей из курсора базы данных должно быть таким же простым, как...

data_tuples = []
for row in cursor:

Однако я опубликовал версию функции, которую я использую для непосредственного ввода курсоров db для записи массивов или pandas данных: Как преобразовать результат SQL-запроса в pandas Структура данных?

Надеюсь, это тоже поможет.

Ответ 2

Я думаю, вы немного озадачены несколькими моментами о том, как matplotlib обрабатывает даты.

На данный момент вы на самом деле не планируете даты. Вы рисуете вещи по оси x с помощью [0,1,2,...], а затем вручную маркируете каждую точку строковым представлением даты.

Matplotlib автоматически позиционирует тики. Тем не менее, вы используете функции позиционирования маркера matplotlib (использование xticks в основном говорит: "Я хочу, чтобы тики были именно в этих позициях".)

На данный момент вы получите тики в [10, 20, 30, ...], если matplotlib автоматически позиционирует их. Однако они будут соответствовать значениям, которые вы использовали для их построения, а не датам (которые вы не использовали при построении графика).

Вероятно, вы хотите на самом деле строить сюжеты, используя даты.

В настоящее время вы делаете что-то вроде этого:

import datetime as dt
import matplotlib.dates as mdates
import numpy as np
import matplotlib.pyplot as plt

# Generate a series of dates (these are in matplotlib internal date format)
dates = mdates.drange(dt.datetime(2010, 01, 01), dt.datetime(2012,11,01), 

# Create some data for the y-axis
counts = np.sin(np.linspace(0, np.pi, dates.size))

# Set up the axes and figure
fig, ax = plt.subplots()

# Make a bar plot, ignoring the date values
ax.bar(np.arange(counts.size), counts, align='center', width=1.0)

# Force matplotlib to place a tick at every bar and label them with the date
datelabels = mdates.num2date(dates) # Go back to a sequence of datetimes...
ax.set(xticks=np.arange(dates.size), xticklabels=datelabels) #Same as plt.xticks

# Make space for and rotate the x-axis tick labels


Вместо этого попробуйте что-то вроде этого:

import datetime as dt
import matplotlib.dates as mdates
import numpy as np
import matplotlib.pyplot as plt

# Generate a series of dates (these are in matplotlib internal date format)
dates = mdates.drange(dt.datetime(2010, 01, 01), dt.datetime(2012,11,01), 

# Create some data for the y-axis
counts = np.sin(np.linspace(0, np.pi, dates.size))

# Set up the axes and figure
fig, ax = plt.subplots()

# By default, the bars will have a width of 0.8 (days, in this case) We want
# them quite a bit wider, so we'll make them them the minimum spacing between
# the dates. (To use the exact code below, you'll need to convert your sequence
# of datetimes into matplotlib float-based date format.  
# Use "dates = mdates.date2num(dates)" to convert them.)
width = np.diff(dates).min()

# Make a bar plot. Note that I'm using "dates" directly instead of plotting
# "counts" against x-values of [0,1,2...]
ax.bar(dates, counts, align='center', width=width)

# Tell matplotlib to interpret the x-axis values as dates

# Make space for and rotate the x-axis tick labels


Ответ 3

Что касается вашего вопроса о том, как показывать только каждый 4-й тик (например) на xaxis, вы можете сделать это:

import matplotlib.ticker as mticker

myLocator = mticker.MultipleLocator(4)

Ответ 4

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# create a random dataframe with datetimeindex
date_range = pd.date_range('1/1/2011', '4/10/2011', freq='D')
df = pd.DataFrame(np.random.randint(0,10,size=(100, 1)), columns=['value'], index=date_range)

Ключи даты часто перекрываются:


Поэтому полезно повернуть их и выровнять по правому краю.

fig, ax = plt.subplots()
ax.xaxis_date()     # interpret the x-axis values as dates
fig.autofmt_xdate() # make space for and rotate the x-axis tick labels

