Browsing the archives for the мучаем жж tag


Сохраняем все комментарии к посту в ЖЖ

Оказывается задампить все комментарии к ЖЖ посту намного проще, чем я предполагал. Я думал придется парсить html, разбираться старт комментарий, текст, юзерпик... Плюс разбираться с разными тредами (ветками) комментариев и все такое. Но оказалось все гораздо проще. В ЖЖ текст комментариев подгружается в виде json объекта - массива данных для javascript. А сами комментарии, их отображение построено по всей видимости на функционале jquery.comments. По крайней мере, для некоторых дизайнов журналов и сообществ это так.

Что из этого следует? А то, что этот json-объект ввиде строки, можно подгрузить не только джаваскрипту, но а вообще, этот объект можно подгрузить в любом языке программирования, для которого есть библиотека для работы с json (а оно есть практически для все популярных языков).

Так что, я взял, тупо спарсил regexp-ом этот json-объект в виде строки со всеми комментариями на странице (под 20кбайт, кстати, даже на малом количестве комментов), и подгрузил через simplejson в свой Python-скрипт. :)) Вот и весь "парсинг" комментариев для ЖЖ. :-)

Continue Reading »