Теги

Комментарии ()

  1. ewal 09 февраля 2022, 22:37 # 0
    Привет! Есть вопросы по твоему парсеру, Может договоримся на работу, поняное дело платно. Суть в том чтобы парсить страницы с переходом по ссылкам на внутренние страницы на Reddiit.com напиши если интересно ewal@list.ru
    +
    T
    >

    Modx Revo > Импорт контента

    30.11.2018 21:27
    17.12.2018 04:45
    746

    /* Превью

    Тут генерится огромная махина для парсинга контента из html, импорта из XML, YML, DOCX и фиг пойми чего еще. В общем автоматизатор наполнения сайта контентом.

    */

    Рано или поздно, $USER_NAME%, каждый кто имеет дело с сайтами на CMS приходит к выводу что сайты лулчше делать на движке иксы мода революшен, в простонародье именуемым Modx Revolution, возникает вопрос, как же перенести контент с других, неадекватных криво-недо-движков вроде joomla или bitrix безопасно для душевного здоровья? Сейчас я всё это покажу на примере, кроме того содержимое этой статьи будет пополнятся различными другими импортёрами, из файлов XML, YML, DOCX и всё в таком духе..

    С чего же начать? Что самое важное в программировании сайтов? Конечно же фоновая музыка, воспользуемся помощью команды #НТР, она как нельзя лучше озвучит проблемы нашей нелёгкой жизни разработчиков.

    Далее будет небольшое описание проекта и сведенья об обновлениях функционала.

    Где находится

    Проект на стадии разработки носит репозиторный псевдоним MODX-Content-Parcer, по ссылке на гитхабре я выложил весь код и приложил небольшую документацию. По мере надобности буду дописывать этот код.

    Что используется

    phpQuery

    PhpQuery, эта библиотека позволяет парсить html контент используя силекторы идентичные jQuery, легко менять отдельные атрибуты у элементов, выдёргивать внутренний html блоков и всё в таком роде.

    PhpWord

    Эта штуковина позволяет парсить .docx

    Как это запустить?

    Пока всё придельно топорно, необходимые файлы в сниппеты или в корень сайта, заполняя параметры в начале файлов.

    АПД:

    10.07.2019 02:52:33

    Прикрутил парсер .docx