Git Blame Коммит Статистика

Как я могу "злоупотреблять" виной (или какой-либо более подходящей функцией и/или в сочетании с командами оболочки), чтобы дать мне статистику того, сколько строк (кода) находится в настоящее время в репозитории, исходящем от каждого коммиттера?

Результат:

Committer 1: 8046 Lines
Committer 2: 4378 Lines

Ответ 1

Обновление

git ls-tree -r -z --name-only HEAD -- */*.c | xargs -0 -n1 git blame \
--line-porcelain HEAD |grep  "^author "|sort|uniq -c|sort -nr

Я обновил некоторые вещи по пути.

Для удобства вы также можете поместить это в собственную команду:

#!/bin/bash

# save as i.e.: git-authors and set the executable flag
git ls-tree -r -z --name-only HEAD -- $1 | xargs -0 -n1 git blame \
 --line-porcelain HEAD |grep  "^author "|sort|uniq -c|sort -nr

сохраните это где-нибудь на своем пути или измените свой путь и используйте его как

git authors '*/*.c' # look for all files recursively ending in .c
git authors '*/*.[ch]' # look for all files recursively ending in .c or .h
git authors 'Makefile' # just count lines of authors in the Makefile

Оригинальный ответ

В то время как принятый ответ делает работу очень медленно.

$ git ls-tree --name-only -z -r HEAD|egrep -z -Z -E '\.(cc|h|cpp|hpp|c|txt)$' \
  |xargs -0 -n1 git blame --line-porcelain|grep "^author "|sort|uniq -c|sort -nr

почти мгновенно.

Чтобы получить список отслеживаемых файлов, вы можете использовать

git ls-tree --name-only -r HEAD

Это решение позволяет избежать вызова file для определения типа файла и использует grep для сопоставления с желаемым расширением по соображениям производительности. Если все файлы должны быть включены, просто удалите это из строки.

grep -E '\.(cc|h|cpp|hpp|c)$' # for C/C++ files
grep -E '\.py$'               # for Python files

если файлы могут содержать пробелы, что плохо для оболочек, вы можете использовать:

git ls-tree -z --name-only -r HEAD | egrep -Z -z '\.py'|xargs -0 ... # passes newlines as '\0'

Дайте список файлов (через канал), можно использовать xargs для вызова команды и распределения аргументов. Команды, позволяющие обрабатывать несколько файлов, соответствуют -n1. В этом случае мы вызываем git blame --line-porcelain, и для каждого вызова мы используем ровно 1 аргумент.

xargs -n1 git blame --line-porcelain

Затем мы фильтруем выходные данные по появлению "автора", сортируем список и подсчитываем повторяющиеся строки по:

grep "^author "|sort|uniq -c|sort -nr

Примечание

Другие ответы на самом деле отфильтровывают строки, содержащие только пробелы.

grep -Pzo "author [^\n]*\n([^\n]*\n){10}[\w]*[^\w]"|grep "author "

Команда выше будет печатать авторов строк, содержащих хотя бы один непробельный символ. Вы также можете использовать совпадение \w*[^\w#], которое также исключит строки, где первый непробельный символ не является # (комментарий на многих языках сценариев).

Ответ 2

Я написал драгоценный камень под названием git-fame, который может быть полезен.

Установка и использование:

$ gem install git_fame
$ cd /path/to/gitdir
$ git fame

Вывод:

Statistics based on master
Active files: 21
Active lines: 967
Total commits: 109

Note: Files matching MIME type image, binary has been ignored

+----------------+-----+---------+-------+---------------------+
| name           | loc | commits | files | distribution (%)    |
+----------------+-----+---------+-------+---------------------+
| Linus Oleander | 914 | 106     | 21    | 94.5 / 97.2 / 100.0 |
| f1yegor        | 47  | 2       | 7     |  4.9 /  1.8 / 33.3  |
| David Selassie | 6   | 1       | 2     |  0.6 /  0.9 /  9.5  |
+----------------+-----+---------+-------+---------------------+

Ответ 3

git ls-tree -r HEAD|sed -re 's/^.{53}//'|while read filename; do file "$filename"; done|grep -E ': .*text'|sed -r -e 's/: .*//'|while read filename; do git blame -w "$filename"; done|sed -r -e 's/.*\((.*)[0-9]{4}-[0-9]{2}-[0-9]{2} .*/\1/' -e 's/ +$//'|sort|uniq -c

Пошаговое объяснение:

Список всех файлов, находящихся под контролем версий

git ls-tree -r HEAD|sed -re 's/^.{53}//'

Обрезать список только текстовыми файлами

|while read filename; do file "$filename"; done|grep -E ': .*text'|sed -r -e 's/: .*//'

Git винить все текстовые файлы, игнорируя изменения пробелов

|while read filename; do git blame -w "$filename"; done

Вытащите имена авторов

|sed -r -e 's/.*\((.*)[0-9]{4}-[0-9]{2}-[0-9]{2} .*/\1/' -e 's/ +$//'

Отсортировать список авторов и присвоить uniq количество последовательно повторяющихся строк

|sort|uniq -c

Пример вывода:

   1334 Maneater
   1924 Another guy
  37195 Brian Ruby
   1482 Anna Lambda

Ответ 4

git summary, предоставляемый пакетом git-extras, - именно то, что вам нужно. Ознакомьтесь с документацией по адресу git-extras - git-summary:

git summary --line

Дает вывод, который выглядит следующим образом:

project  : TestProject
lines    : 13397
authors  :
8927 John Doe            66.6%
4447 Jane Smith          33.2%
  23 Not Committed Yet   0.2%

Ответ 5

Решение Erik было потрясающим, но у меня были проблемы с диакритикой (несмотря на то, что переменные среды LC_* были установлены якобы правильно) и шум, протекающий по строкам кода, на котором на самом деле были даты. Мой sed-fu беден, поэтому я закончил с этим фрагментом frankenstein с рубином в нем, но он работает для меня безупречно на 200 000 + LOC, и он сортирует результаты:

git ls-tree -r HEAD | gsed -re 's/^.{53}//' | \
while read filename; do file "$filename"; done | \
grep -E ': .*text' | gsed -r -e 's/: .*//' | \
while read filename; do git blame "$filename"; done | \
ruby -ne 'puts $1.strip if $_ =~ /^\w{8} \((.*?)\s*\d{4}-\d{2}-\d{2}/' | \
sort | uniq -c | sort -rg

Также обратите внимание на gsed вместо sed, потому что бинарный homebrew устанавливает, оставив систему sed неповрежденной.

Ответ 6

git shortlog -sn

Это покажет список коммитов на автора.

Ответ 7

Проверьте команду gitstats, доступную из http://gitstats.sourceforge.net/

Ответ 8

Вот основной фрагмент ответа @Alex, который фактически выполняет операцию агрегирования строк вины. Я сократил его, чтобы работать с одиночным файлом, а не с набором файлов.

git blame --line-porcelain path/to/file.txt | grep  "^author " | sort | uniq -c | sort -nr

Я размещаю это здесь, потому что я часто возвращаюсь к этому ответу и перечитываю сообщение и повторно перевариваю примеры, чтобы извлечь часть, которую я оцениваю, это налогообложение. И это не является общим для моего варианта использования; его область охвата для всего проекта C.

Мне нравится перечислять статистику по файлу, полученную с помощью for итератора вместо xargs, поскольку я нахожу xargs менее удобочитаемым и трудным в использовании/запоминании. Преимущества/недостатки xargs vs for следует обсуждать в другом месте.

Вот практический фрагмент, который будет показывать результаты для каждого файла отдельно:

for file in $(git ls-files); do \
    echo $file; \
    git blame --line-porcelain $file \
        | grep  "^author " | sort | uniq -c | sort -nr; \
    echo; \
done

И я тестировал, запуск этой строки в оболочке bash ctrl + c безопасен, если вам нужно поместить это внутри bash script, вам может понадобиться Ловушка на SIGINT и SIGTERM, если вы хотите, чтобы пользователь мог нарушить цикл for.

Ответ 9

У меня есть это решение, которое подсчитывает обвиненные строки во всех текстовых файлах (исключая двоичные файлы, даже версии):

IFS=$'\n'
for file in $(git ls-files); do
    git blame `git symbolic-ref --short HEAD` --line-porcelain "$file" | \
        grep  "^author " | \
        grep -v "Binary file (standard input) matches" | \
        grep -v "Not Committed Yet" | \
        cut -d " " -f 2-
    done | \
        sort | \
        uniq -c | \
        sort -nr

Ответ 10

Создал собственный script, который представляет собой комбинацию @nilbus и @Alex

#!/bin/sh

for f in $(git ls-tree -r  --name-only HEAD --);
do
    j=$(file "$f" | grep -E ': .*text'| sed -r -e 's/: .*//');
    if [ "$f" != "$j" ]; then
        continue;
    fi
    git blame -w --line-porcelain HEAD "$f" | grep  "^author " | sed 's/author //'`enter code here`
done | sort | uniq -c | sort -nr

Ответ 11

Функция Bash, предназначенная для одного исходного файла, запускается в MacOS.

function glac {
    # git_line_author_counts
    git blame -w "$1" |  sed -E "s/.*\((.*) +[0-9]{4}-[0-9]{2}.*/\1/g" | sort | uniq -c | sort -nr
}