Подтвердить что ты не робот

Что такое алгоритм сортировки/ранжирования системы комментариев Youtube?

Youtube предоставляет два варианта сортировки: самые новые и первые комментарии. "Сначала самое новое" довольно просто, мы просто сортируем комментарии по дате их публикации. Но "Лучшие комментарии" кажутся гораздо более сложными, чем просто сортировка по "большим пальцам".

Youtube comment system

После короткого исследования я обнаружил, что порядок комментариев зависит от этих вещей:

  • Количество кнопок "большой палец вверх" и "большой палец вниз"
  • Дата публикации
  • Количество ответов на этот комментарий

Но я не знаю, как Youtube использует эту информацию для определения порядка, например, какая информация важнее, а какая менее важна.

Есть ли статья на эту тему, на которую я мог бы сослаться?

Спасибо!

4b9b3361

Ответ 1

У меня есть ответ на ваш вопрос.

После поиска в Интернете ответа на этот вопрос, я так и не нашел именно то, что искал. Итак, мы с коллегами решили поэкспериментировать, используя систему с комментариями Youtube.

Прежде всего, мы отсортировали то, что мы считали популярными видео, в один раздел, среднее видео в другой и менее популярное в последнем. В каждом разделе было по 200 видео, и после нескольких дней изучения мы начали замечать закономерность. Мы обнаружили, что вы были правы в отношении трех требуемых вещей, но мы также углубились и нашли дополнительную переменную.

Система комментариев Youtube зависит от четырех вещей:

1) Время, когда оно было опубликовано,

2) Соотношение "нравится/не нравится" в комментарии,

3) Количество ответов,

4) И, хотите верьте, хотите нет, ВОЗ это опубликовала.

Среднее соотношение "нравится/не нравится" каждого общественного комментария, которое вы когда-либо публиковали, встраивается в него, поскольку (как мы и предполагали) они полагают, что люди с низким отношением "нравится/не нравится" будут публиковать комментарии, которые многим не нравятся или просто не соглашаются.

В этом есть алгоритм, и он гораздо проще, чем вы думаете. По сути, есть такие вещи, которые мы назвали "модульными точками", и вы получаете определенный, основанный на этих четырех факторах. Во-первых, вот что нужно знать о преобразовании точек модуля с ДВУМЯ факторами:

  • Для соотношения "нравится/не нравится" в комментарии умножьте это число на десять.

  • На количество ответов (НЕ от первоначального автора), которые есть в комментарии, есть два модульных пункта.

Это два основных фактора, которые определяют количество модульных баллов в комментарии.

Например, если в комментарии было 27 лайков и 8 антипатий, то соотношение было бы 3,375. Умножив на 10, вы получите 33,75 модульных очков. Используя следующий фактор, количество ответов, скажем, у этого комментария есть 4 прямых ответа на него. Умножив 2 на 4, мы получим 8. Это та часть, где вы добавляете 8 к накопительным модульным баллам, что дает вам в общей сложности 41,75 модульных баллов.

Но мы еще не закончили; это где это становится сложным.

Используя среднее соотношение "нравится/не нравится" общего количества комментариев, которые они когда-либо публиковали, мы обнаружили, что формула, добавленная к накопительным баллам модуля, такова:

C = MP(R/3) + (MP/10)

where C = Comment Position Variable; MP = Module Points; R = Person total like/dislike ratio

Поверьте мне, мы проводим ДНИ только на этой части, которая была, вероятно, самой расстраивающей. Даже если 3 и 10 в этом уравнении кажутся случайными и ненужными, до сих пор все комментарии, на которых мы проверяли это уравнение, прошли тест, но не прошли тест, когда эти две переменные были удалены. После того, как это уравнение выполнено, оно дает вам число, которое мы назвали Переменная положения.

Однако мы еще даже не закончили, мы еще не говорили о time.

На самом деле я был очень удивлен, что эта часть заняла не так много времени, как я ожидал, но, конечно, было больно делать это уравнение каждый раз для каждого протестированного нами комментария. Сначала, при тестировании, мы решили, что пришло время преодолеть барьер, если 2 комментария имели равные переменные позиции.

На самом деле, я почти назвал это завершением эксперимента, когда это произошло, но при дальнейшей проверке мы обнаружили, что предстоит еще многое сделать. Мы обнаружили, что некоторые комментарии превосходили друг друга с одинаковой переменной позиции, но время показалось случайным! После нескольких дней проверки вот, где приходит окончательный результат:

Есть еще ДРУГОЕ уравнение, которое мы должны найти перед применением 4-й переменной. Используя другое отдельное уравнение, вот к чему пришли наши алгебраические выводы:

X = 1/3(S/10 + A) x [absolute value of](A - 3S)

where X = Timing Variable; S = How long ago the video was posted in minutes; A = How long ago the comment was posted in minutes

Хотелось бы, чтобы я это придумал, но, к сожалению, так сложна система. Есть другие математические причины, стоящие за другими переменными, но они слишком сложны для объяснения, вероятно, это займет не менее трех абзацев. Мы проверили это уравнение на более чем 150 комментариях, все из которых были проверены на достоверность.

Как только вы найдете X, который мы назвали временной переменной, все, что вам нужно сделать, это применить его к следующему уравнению:

N = X(C/4 + 1)

where X = Timing Variable; C = Positioning Variable

N является ответом на все ваши проблемы.

Это окончательное уравнение, окончательный ответ. Простой вывод: чем выше N, тем выше комментарий.

Примечание: Особая благодарность моим коллегам: Дэвиду Мэттисону, Джошу Уильямсу, Диего Мендиете, Стивену Орсетту и Кайлу Шропширу. Я бы никогда не узнал об этом без них и той работы, которую они вложили в это.