Блог
Публикации о процессе разработки, решённых задачах и изученных технологиях
Scoring V2: система, которая отличает настоящие тренды от шума
# Scoring V2: когда трендам нужна оценка честности Проект **trend-analysis** разросся до того, что мы уже собирали тренды из трёх источников одновременно — Hacker News, GitHub и arXiv. Но вот беда: не все тренды одинаково полезны. Одна заметка набирает 500 апвотов за счёт сенсационного заголовка, другая медленно растёт, потому что действительно важна. Третья вообще сплошь переподсказывается из десяти агрегаторов. Нужна была система, которая не просто считает, что популярнее, а понимает, *почему* это актуально и стоит ли на это вообще обращать внимание. Задача была чёткая: построить **Scoring V2** — систему метрик, которая будет ставить каждому тренду две оценки (по 100-балльной шкале) и выдавать конкретную рекомендацию. Не просто «это популярно», а **ACT_NOW** («действуй сейчас!»), **MONITOR** («присматриваем»), **EVERGREEN** («это на века») или **IGNORE** («не трать время»). Первым делом разобрались с метриками. **Urgency** — это по сути скорость роста: насколько быстро тренд набирает обороты в последние часы. **Quality** — это честность источника и уникальность. Вот здесь и пригодилась идея с **Tavily**: мы начали считать количество уникальных доменов, которые цитируют эту новость. Если одну статью перепостили на 50 агрегаторских сайтах, но всего там одна оригинальная ссылка — это ненастоящий тренд, это просто вирусное перепосчикание. Реализовали **TavilyAdapter** с методами для подсчёта цитирований и фильтрации агрегаторов. В конфигах добавили шаблоны для распознавания паттернов типичных переупаковщиков новостей — Medium, Dev.to, Hashnode и прочих. **TrendScorer** теперь рассчитывает обе метрики и выбирает рекомендацию по простой логике: если urgency высокий И quality высокий — то ACT_NOW, если только один из них — MONITOR, и так далее. На фронтенде добавили новые компоненты — **RecommendationBadge** показывает рекомендацию цветом и текстом, а **UrgencyQualityIcons** визуализирует обе оценки сразу. Самое интересное: раньше источники были просто счётчиками («30 упоминаний»), теперь это массивы URL-ов, по которым можно кликнуть и увидеть, где именно упоминается тренд. Навигация в разделе Categories теперь работает через URL-параметры — появилась возможность нормально использовать кнопку назад в браузере. **Неочевидный факт о системах рекомендаций:** большинство разработчиков ошибочно считают, что стоит комбинировать все метрики в один скор и сортировать по нему. На деле гораздо полезнее иметь несколько ортогональных метрик (которые не зависят друг от друга) и давать юзеру выбор, на что смотреть. Плюс конкретные рекомендации (вроде ACT_NOW) куда понятнее, чем абстрактный скор 7.3 из 10. В итоге получилась система, которая не просто шумит о популярности, а реально помогает разобраться в том, что сейчас происходит в IT. Весь код, логика и даже типичные ловушки документировали в **CHANGELOG.md** и отдельных markdown-ах про Scoring V2 и подход с Tavily. Следующий шаг — добавить машинное обучение, чтобы baseline-ы для цитаций настраивались автоматически. 😄 Документация V2 получилась более объёмной, чем сам код, но это не баг, это фича — значит, потом будет меньше вопросов.
Копируй из Word без мусора: 73 теста для идеального paste
# Как перетащить HTML из Word прямо в редактор: история о 73 тестах и пути до конца Разработчик столкнулся с классической задачей: пользователи копируют текст из Google Docs и Word, вставляют в редактор, а получают хаос из стилей и тегов. Нужна была полноценная система конвертации HTML из буфера обмена в понятный редактору формат. Решение представляло собой цепь обработки данных, которая превращает сырой HTML в аккуратный markdown. **ClipboardEvent → cleanPastedHtml → parseHtmlToMarkdown → markdownToDocument → insertRunsAtCursor** — звучит как сценарий фильма про спасение данных, но на деле это elegantly выстроенный pipeline, где каждый этап отвечает за свою задачу. Первый этап очищает HTML от мусора браузерных расширений, второй парсит его в markdown, третий преобразует markdown в структуру документа редактора, и финальный вставляет текст в нужное место. Параллельно были добавлены два новых плагина. **StrikethroughPlugin** обрабатывает зачёркивание текста (~~текст~~ преобразуется в `<del>`), а **HrPlugin** работает с горизонтальными линиями (три дефиса становятся `<hr>`). Эти маленькие помощники часто забывают в редакторах, но они критичны для пользователей, которые привыкли к полноценной разметке. Сложность была в деталях. Google Docs и Word добавляют в HTML слои стилей и вспомогательных атрибутов, которые нужно умело отфильтровать. Таблицы в формате GitHub Flavored Markdown требуют особой обработки, вложенные списки — своего алгоритма. Разработчик должен был учесть все эти нюансы и при этом сохранить чистоту кода. Здесь пригодилось основательное тестирование. **73 теста**, где 56 уже существовали, а 15 добавились специально для paste-функционала, плюс 2 для inline-клавиатуры. Это не просто цифра в коммите — это гарантия, что система работает с Google Docs, Word, обычным текстом и экзотическими HTML-конструкциями. Каждый зелёный тест — это отсутствие потенциального баг-репорта в будущем. **Интересный факт**: история буфера обмена в браузерах началась ещё с Internet Explorer 5, но вот полноценный Clipboard API появился совсем недавно. Раньше разработчикам приходилось использовать `execCommand('paste')` и надеяться на лучшее. Современный подход с `ClipboardEvent` намного надёжнее и позволяет контролировать процесс на каждом шаге. В итоге пользователи теперь могут без опасений копировать содержимое из любых источников — редактор сам разберёт HTML и выдаст чистый результат. Все 73 теста зелёные, что означает: система готова к боевым условиям. 😄 **Почему JavaScript разработчики не любят природу? Там нет консоли для отладки.**