Гусь. Начало истории...
Привет, меня зовут Андрей. Я хочу рассказать вам о своем первом опыте работы с открытым исходным кодом и о проекте, который был разработан - Goose Parser.
redco/goose-parser
Универсальный инструмент для парсинга, который позволяет извлекать данные с использованием нескольких сред - redco/goose-parser
github.com
Вернемся к концу 2015 года, когда начинается эта история. Я работал в качестве старшего PHP-разработчика в одной туристической компании, назовем ее "D". И в тот момент у меня не было опыта работы с Node.js. Я выбрал этот язык из-за множества полезных инструментов, таких как PhantomJS, Puppeteer и другие с хорошими API и функциональностью для работы с веб-страницами.
Назвать это
Итак, почему ему было дано такое странное имя, как Гусь?! Хороший вопрос. Оригинальное название было — Fantastic Unified Crawler Kit (Фантастический единый набор для парсинга), вы можете себе представить аббревиатуру для этого названия. Это было достаточно забавно, но нечто, что можно продвигать и продавать как продукт, слишком мрачно... Примерно в то время у меня была возможность поработать в лондонском офисе D на несколько недель. Мне очень понравились люди, сообщество TravelTech, город, пабы, парки и особенно множество разных животных, которые свободно приходили и уходили в зеленых зонах города. Белки, гуси, лебеди, олени... Наконец, я пошел в магазин игрушек Hamleys и нашел куклу-гуся. У нее был свой характер и точка зрения. Так что было принято окончательное решение и название проекта было изменено. Некоторое время спустя мы сняли короткий видео-трейлер о Гусе. Вот он:
Если быть честным, на рынке уже существует множество существующих фреймворков для парсинга. И Гусь должен был стать одним из них. Однако, мы планировали создать что-то, что можно запустить самостоятельно, а также масштабировать до платформы, где вы можете выполнять скрипты парсинга в облаке, делиться ими с кем угодно и даже продавать их на рынке.
Особенности
Итак, давайте более подробно рассмотрим функции, которые может предоставить Goose:
Пусть он кодит
Вот простой пример того, как Goose может извлекать веб-информацию для вас.
И вот пример использования через командную строку (на основе Docker):
Итоговые мысли
Goose - это красивый фреймворк для парсинга веб-страниц, который был создан как инструмент с открытым исходным кодом в одном репозитории. Позже, части Goose были перемещены в отдельные репозитории, чтобы уменьшить размер исходной библиотеки и позволить выполнение парсера в различных средах. У него есть множество полезных функций, и его можно запустить как контейнер Docker, что значительно упрощает процесс разработки новых парсеров.
Интересно попробовать?
Если да, то перейдите на goose.show, чтобы узнать больше деталей! Это бесплатно и с открытым исходным кодом!
Если у вас есть вопросы или отзывы, вы можете:
Спасибо за ваше время!