mstdn.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
A general-purpose Mastodon server with a 500 character limit. All languages are welcome.

Administered by:

Server stats:

12K
active users

#семантический_поиск

0 posts0 participants0 posts today
Habr<p>Семантический поиск по статьям Хабра в PostgreSQL + индексация текстов LLM в Ollama</p><p>Покажу вам практическую реализацию семантического поиска на основе векторных представлений - эмбеддингов из текста. Здесь я создам систему, которая анализирует статьи с Хабра, извлекает из них темы и ключевые слова с помощью локально работающих больших языковых моделей LLM, и на основе этих данных создает векторные представления для эффективного поиска по смыслу, а не по запросу на вхождение определенного текста.</p><p><a href="https://habr.com/ru/articles/915348/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/915348/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/%D1%81%D0%B5%D0%BC%D0%B0%D0%BD%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>семантический_поиск</span></a> <a href="https://zhub.link/tags/postgresql" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>postgresql</span></a> <a href="https://zhub.link/tags/pgvector" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>pgvector</span></a> <a href="https://zhub.link/tags/llm%D0%BF%D1%80%D0%B8%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>llmприложения</span></a> <a href="https://zhub.link/tags/ollama" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ollama</span></a> <a href="https://zhub.link/tags/spring_ai" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>spring_ai</span></a> <a href="https://zhub.link/tags/java" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>java</span></a> <a href="https://zhub.link/tags/%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B5%D1%81%D1%82%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>обработка_естественного_языка</span></a> <a href="https://zhub.link/tags/%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%BE%D0%B2%D1%8B%D0%B5_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>поисковые_системы</span></a></p>
Habr<p>Как мы учили нейросеть разбираться в сложных документах: задача семантического поиска</p><p>Привет! Меня зовут Павел Яковлев, я инженер по разработке ПО искусственного интеллекта в YADRO. В команде GenAI мы занимаемся умными продуктами на основе корпоративных баз данных. В проектах мы часто используем современные генеративные модели и энкодеры. В статье расскажу, как мы в компании разрабатываем и оптимизируем семантический поиск по сложным документам: PDF, HTML и DOCX.</p><p><a href="https://habr.com/ru/companies/yadro/articles/893050/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/yadro/ar</span><span class="invisible">ticles/893050/</span></a></p><p><a href="https://zhub.link/tags/search" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>search</span></a> <a href="https://zhub.link/tags/%D1%81%D0%B5%D0%BC%D0%B0%D0%BD%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>семантический_поиск</span></a> <a href="https://zhub.link/tags/%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D1%81%D0%B5%D1%82%D0%B8" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>нейросети</span></a> <a href="https://zhub.link/tags/%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>информационный_поиск</span></a> <a href="https://zhub.link/tags/%D1%8D%D0%BC%D0%B1%D0%B5%D0%B4%D0%B4%D0%B8%D0%BD%D0%B3%D0%B8" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>эмбеддинги</span></a> <a href="https://zhub.link/tags/crossencoder" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>crossencoder</span></a> <a href="https://zhub.link/tags/biencoder" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>biencoder</span></a> <a href="https://zhub.link/tags/%D0%B3%D0%B5%D0%BD%D0%B5%D1%80%D0%B0%D1%82%D0%B8%D0%B2%D0%BD%D1%8B%D0%B5_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>генеративные_модели</span></a> <a href="https://zhub.link/tags/%D1%8D%D0%BD%D0%BA%D0%BE%D0%B4%D0%B5%D1%80%D1%8B" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>энкодеры</span></a></p>
Habr<p>[Перевод] Postgres как поисковый движок</p><p>Поиск — это сложно. Важная часть многих приложений, которую нелегко реализовать правильно. Особенно в случае с RAG-пайплайнами, где на качество поиска завязан весь процесс. Хотя семантический поиск в моде, старый добрый лексический поиск по-прежнему остается базой. Семантические методы могут улучшить результаты, но эффективнее всего они работают, когда добавляются к прочному фундаменту текстового поиска. Эрик Закариассон, разработчик и автор блога Anyblockers, рассмотрел в своей статье, как использовать Postgres для создания надёжной поисковой системы. В рамках задачи автор объединил три техники: 1. Полнотекстовый поиск с tsvector 2. Семантический поиск с pgvector 3. Нечёткое сопоставление с pg_trgm 4. Бонус: BM25 Возможно, это не оптимальный подход для любой ситуации, но отличная альтернатива созданию отдельного поискового сервиса; отправная точка, которую можно реализовать и масштабировать в рамках существующей базы данных Postgres.</p><p><a href="https://habr.com/ru/companies/sravni/articles/888534/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/sravni/a</span><span class="invisible">rticles/888534/</span></a></p><p><a href="https://zhub.link/tags/postgresql" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>postgresql</span></a> <a href="https://zhub.link/tags/%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%BE%D0%B2%D1%8B%D0%B9_%D0%B4%D0%B2%D0%B8%D0%B6%D0%BE%D0%BA" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>поисковый_движок</span></a> <a href="https://zhub.link/tags/%D0%BF%D0%BE%D0%BB%D0%BD%D0%BE%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2%D1%8B%D0%B9" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>полнотекстовый</span></a> <a href="https://zhub.link/tags/%D1%81%D0%B5%D0%BC%D0%B0%D0%BD%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>семантический_поиск</span></a> <a href="https://zhub.link/tags/%D0%BD%D0%B5%D1%87%D0%B5%D1%82%D0%BA%D0%B8%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>нечеткий_поиск</span></a></p>
Habr<p>Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа</p><p>Привет, Хабр! Я — Игорь Старун, BigData Lead в MPSTATS. Я уже 3 года занимаюсь анализом данных на маркетплейсах, штудируя гигантские объёмы информации и превращая их из непотребного и нечитаемого вида в удобоваримый и анализируемый. Моя задача — собрать и подготовить данные так, чтобы помочь продавцам на маркетплейсах разобраться, что происходит с их товарами, конкурентами и продажами, чтобы они не утонули в хаосе карточек, цен и остатков. В этой статье я расскажу, как мы перерабатываем эти объемы грязных данных и структурируем для дальнейшего анализа. Данные о товарах – это основа всего. Каждую неделю мы обходим более 200 миллионов карточек с Wildberries и Ozon. Названия, описания, характеристики, фотографии — всё это мы аккуратно собираем и складываем в базы данных (для разных задач мы используем ClickHouse, Postgres, MySQL и MongoDB) и облачные хранилища. Зачем? Чтобы потом сделать с этим что-то умное и полезное. Читать дальше</p><p><a href="https://habr.com/ru/companies/mpstats/articles/884344/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="ellipsis">habr.com/ru/companies/mpstats/</span><span class="invisible">articles/884344/</span></a></p><p><a href="https://zhub.link/tags/%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D1%82%D0%B8%D0%BA%D0%B0" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>аналитика</span></a> <a href="https://zhub.link/tags/%D0%BC%D0%B0%D1%80%D0%BA%D0%B5%D1%82%D0%BF%D0%BB%D0%B5%D0%B9%D1%81%D1%8B" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>маркетплейсы</span></a> <a href="https://zhub.link/tags/%D1%8D%D0%BC%D0%B1%D0%B5%D0%B4%D0%B4%D0%B8%D0%BD%D0%B3%D0%B8" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>эмбеддинги</span></a> <a href="https://zhub.link/tags/faiss" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>faiss</span></a> <a href="https://zhub.link/tags/%D1%81%D0%B5%D0%BC%D0%B0%D0%BD%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>семантический_поиск</span></a> <a href="https://zhub.link/tags/%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>обработка_изображений</span></a> <a href="https://zhub.link/tags/seo%D0%BE%D0%BF%D1%82%D0%B8%D0%BC%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>seoоптимизация</span></a> <a href="https://zhub.link/tags/big_data" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>big_data</span></a> <a href="https://zhub.link/tags/%D0%B8%D1%81%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>искусственный_интеллект</span></a> <a href="https://zhub.link/tags/%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D1%81%D0%B5%D1%82%D0%B8" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>нейросети</span></a></p>
Habr<p>База данных сниппетов со смысловым поиском: что «под капотом»</p><p>Хочу поддержать жанр статей «что под капотом» и рассказать подробности реализации проекта code‑magic.com — базы данных сниппетов со смысловым поиском. Под капот...</p><p><a href="https://habr.com/ru/articles/881282/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/881282/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/%D1%81%D0%BD%D0%B8%D0%BF%D0%BF%D0%B5%D1%82%D1%8B" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>сниппеты</span></a> <a href="https://zhub.link/tags/%D0%B1%D0%B0%D0%B7%D1%8B_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>базы_данных</span></a> <a href="https://zhub.link/tags/%D1%81%D0%B5%D0%BC%D0%B0%D0%BD%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>семантический_поиск</span></a> <a href="https://zhub.link/tags/%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2%D1%8B%D0%B5_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>языковые_модели</span></a> <a href="https://zhub.link/tags/headless_cms" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>headless_cms</span></a> <a href="https://zhub.link/tags/opensearch" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>opensearch</span></a> <a href="https://zhub.link/tags/bash" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>bash</span></a> <a href="https://zhub.link/tags/support" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>support</span></a> <a href="https://zhub.link/tags/administration" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>administration</span></a> <a href="https://zhub.link/tags/cheatsheets" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>cheatsheets</span></a></p>
Habr<p>Семантический поиск (homemade)</p><p>Основой семантического поиска может являться ML задача Sentence Similarity , а если быть еще конкретнее, то это Semantic Textual Similarity . Модели, обученные под эту задачу, способны оценивать насколько близки предложения по своему смыслу. Всё, что нам дальше остается, так это засунуть модель в некоторую поисковую систему... Но тут давайте по порядку</p><p><a href="https://habr.com/ru/articles/834356/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/834356/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/%D1%81%D0%B5%D0%BC%D0%B0%D0%BD%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>семантический_поиск</span></a> <a href="https://zhub.link/tags/%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8e" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>машинное_обучениe</span></a> <a href="https://zhub.link/tags/%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B5%D1%81%D1%82%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>обработка_естественного_языка</span></a> <a href="https://zhub.link/tags/nlp" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>nlp</span></a> <a href="https://zhub.link/tags/bert" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>bert</span></a> <a href="https://zhub.link/tags/machine_learning" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>machine_learning</span></a> <a href="https://zhub.link/tags/sentence_transformer" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>sentence_transformer</span></a> <a href="https://zhub.link/tags/transformers" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>transformers</span></a> <a href="https://zhub.link/tags/deep_learning" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>deep_learning</span></a> <a href="https://zhub.link/tags/ai" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>ai</span></a></p>