Обновление: используйте объекты Twitter, если вы можете - они поняли это как для вас, так и для других предметов. Мое дело в том, что у меня просто есть твит без сущностей и все дополнительные метаданные
Я потратил то, что считаю необоснованным время, пытаясь найти фактический формат для хэштегов.
Насколько я могу сказать, Twitter не опубликовал ни одного.
Я знаю, что многие люди придумали регулярное выражение для их анализа, однако ваше регулярное выражение lib не является моим регулярным выражением lib и, возможно, мне все равно не нравится.
Итак, я спрашиваю: есть ли какие-либо фактические официальные спецификации? Я не хочу отвечать регулярным выражением, я хочу BNF или что-то подобное. Или минимально - полный список разделителей.
Дополнительные точки сложности - захват их из случайных сообщений unicode (неанглийский) также важен.
Примечание. Я прекрасно знаю сущности, и они не применимы к моему делу (месяцы сообщений Twitter, хранящихся в db).