Habr<p>Парсинг российских СМИ</p><p>В эпоху больших языковых моделей полноценный сбор информации с сайтов все еще не самый очевидный сценарий, требующий учета многих мелких деталей, а также понимания принципов работы сайта и взаимодействия с ним. В этом случае единственный оптимальный метод сбора такой информации - это парсинг. В данной статье мы сфокусируемся на парсинге сайтов российских СМИ, в числе которых Meduza ,* как официально запрещенное в РФ и более государственно-подконтрольных RussiaToday и Коммерсанта . Разберемся какой это сделать наиболее эффективно и получим текст и метаданные статей. Как основные инструменты используем классические библиотеки в Python: requests, BeautifulSoup, Selenium .</p><p><a href="https://habr.com/ru/articles/930188/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/930188/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D0%BD%D0%B3" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>парсинг</span></a> <a href="https://zhub.link/tags/beautifulsoup" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>beautifulsoup</span></a> <a href="https://zhub.link/tags/selenium" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>selenium</span></a> <a href="https://zhub.link/tags/python" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>python</span></a> <a href="https://zhub.link/tags/%D1%81%D0%B1%D0%BE%D1%80_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>сбор_данных</span></a></p>