- Агафонова Елена Игоревна
- НИУ МИЭТ, г.Москва

Тезис
При выпуске продукции различные предприятия могут
столкнуться с проблемой поиска необходимых комплектующих. Для
решения этой проблемы требуется большое количество времени, так как
необходимо просмотреть каталоги продукции и выбрать нужное для
закупки, поэтому разработка автоматизированной системы, состоящая
из парсера сайтов и базы данных, для получения и хранения данных о
продукции предприятий является своевременной и актуальной.
При
исследовании
существующих
решений
парсера
обнаруживается, что большинство из них платные, в частности,
ScrapeStorm, Octoparse, Helium Scraper, а их бесплатные версии имеют
ограничения либо по времени пользования сервисом, либо по объему
парсинга данных. Кроме того, большинство парсеров выгружают
результат в таблицу Excel или CSV формат.
Для решения задачи разработан парсер, мониторирующий каталоги
продукции предприятий микроэлектроники. Результаты исследования
записываются в нереляционную документоориентированную базу
данных.
Такая структура позволяет организовывать отдельные
коллекции документов одного типа или схожей тематики.
Парсер написан на языке программирования Python, который
включает готовые библиотеки для работы с данными сайтов,
универсален в использовании, имеет обширную документацию. Для
хранения данных выбрана СУБД MongoDB, так как позволяет хранить
упорядоченные данные в виде дерева, не требует структуризации
данных.
Данное решение найдет широкое применение на любых
предприятиях, связанных с микроэлектроникой. В дальнейшем его
можно масштабировать в другие области производства для того, чтобы
быстро, используя базу данных, найти необходимую информацию.