mstdn.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
A general-purpose Mastodon server with a 500 character limit. All languages are welcome.

Administered by:

Server stats:

14K
active users

#word2vec

1 post1 participant0 posts today

История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима

Доброго времени суток, «Хабр»! В предыдущей части мы рассмотрели историю языковых моделей от робких шагов Маркова до долгой краткосрочной памяти. Сегодня мы продолжим, пройдемся по ключевым архитектурам последних лет и разберём, как модели научились интерпретировать контекст, предсказывать и даже спорить логически. Пристегните токены — вход в зону трансформаций!

habr.com/ru/companies/bothub/a

ХабрИстория развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режимаДоброго времени суток, «Хабр»! В предыдущей части мы рассмотрели историю языковых моделей от робких шагов Маркова до долгой краткосрочной памяти. Сегодня мы продолжим, пройдемся по ключевым...

Next stop in our NLP timeline is 2013, the introduction of low dimensional dense word vectors - so-called "word embeddings" - based on distributed semantics, as e.g. word2vec by Mikolov et al. from Google, which enabled representation learning on text.

T. Mikolov et al. (2013). Efficient Estimation of Word Representations in Vector Space.
arxiv.org/abs/1301.3781

#NLP #AI #wordembeddings #word2vec #ise2025 #historyofscience @fiz_karlsruhe @fizise @tabea @sourisnumerique @enorouzi

Ведущий разработчик ChatGPT и его новый проект — Безопасный Сверхинтеллект

Многие знают об Илье Суцкевере только то, что он выдающийся учёный и программист, родился в СССР, соосновал OpenAI и входит в число тех, кто в 2023 году изгнал из компании менеджера Сэма Альтмана. А когда того вернули, Суцкевер уволился по собственному желанию в новый стартап Safe Superintelligence («Безопасный Сверхинтеллект»). Илья Суцкевер действительно организовал OpenAI вместе с Маском, Брокманом, Альтманом и другими единомышленниками, причём был главным техническим гением в компании. Ведущий учёный OpenAI сыграл ключевую роль в разработке ChatGPT и других продуктов. Сейчас Илье всего 38 лет — совсем немного для звезды мировой величины.

habr.com/ru/companies/ruvds/ar

#Илья_Суцкевер #Ilya_Sutskever #OpenAI #10x_engineer #AlexNet #Safe_Superintelligence #ImageNet #неокогнитрон #GPU #GPGPU #CUDA #компьютерное_зрение #LeNet #Nvidia_GTX 580 #DNNResearch #Google_Brain #Алекс_Крижевски #Джеффри_Хинтон #Seq2seq #TensorFlow #AlphaGo #Томаш_Миколов #Word2vec #fewshot_learning #машина_Больцмана #сверхинтеллект #GPT #ChatGPT #ruvds_статьи

ХабрВедущий разработчик ChatGPT и его новый проект — Безопасный СверхинтеллектМногие знают об Илье Суцкевере только то, что он выдающийся учёный и программист, родился в СССР, соосновал OpenAI и входит в число тех, кто в 2023 году изгнал из компании менеджера Сэма Альтмана. А...

fchollet.substack.com/p/how-i-

"Word2vec enabled you to do basic things like plural(cat) → cats or male_to_female(king) → queen. Meanwhile LLMs can do pure magic — things like write_this_in_style_of_shakespeare(“…your poem…”) → “…new poem…”. And they contain millions of such programs."

Sparks in the Wind · How I think about LLM prompt engineeringBy François Chollet
#AI#LLM#word2vec
Continued thread

By vector math, recall #word2vec and nearest word to "king" - "man" + "woman" = "queen".

Learn a #vector representation for writers, philosophers, #political leaders and voices.

Map them and show a visualization of where major figures fall on this vector-space of their words.

Plug in writers who's ideas you like, average them and find the vector at the center and find others in that thought space.

Do the reverse - map voices you hate and see where they are and who's in between, etc.

Что такое векторизация текста в NLP и какая она бывает: One-hot encoding, Bag of words, TF-IDF, Word2Vec, BERT и другие

Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников , и в этой статье я расскажу про разные способы векторизации текстов. Всем привет! Вдохновившись прикольной и понятной статьей на английском языке, и не найдя сходу чего-то похожего в русскоязычном сегменте интернета, решил написать о том, как обрабатывается текст перед тем, как на нем начинают применять разные модели ИИ. Эту статью я напишу нетехническим языком, потому что сам не технарь и не математик. Надеюсь, что она поможет узнать о NLP тем, кто не сталкивается с AI в продуктах на ежедневной основе. О чем эта статья:

habr.com/ru/articles/820159/

#Onehot_encoding #Bag_of_words #TFIDF #Word2Vec #BERT #NLP #nlp_(natural_language_processing) #nlpмодели

ХабрЧто такое векторизация текста в NLP и какая она бывает: One-hot encoding, Bag of words, TF-IDF, Word2Vec, BERT и другиеПривет, Хабр! Меня зовут Александр Троицкий, я автор канала  AI для чайников , и в этой статье я расскажу про разные способы векторизации текстов. Всем привет! Вдохновившись  прикольной и...

[Перевод] Краткий обзор техник векторизации в NLP

Как переводчик-редактор, я интересуюсь темой NLP и автоматизации рутины бюро переводов. Изучая вопрос того, как смысл слов превращается в векторы, наткнулся на эту обзорную статью. Статья мне показалась изложенной доступно, поэтому я перевел ее для удобства других коллег. Работоспособность большей части кода проверял, вроде работает (см. Jupiter Notebook). Надеюсь, будет полезно. === Технологии NLP — Natural Language Processing, обработки естественного языка — позволяют компьютерам обрабатывать человеческий язык, понимать его значение и контекст, а также связанные с ним эмоциональную окраску и намерения, и далее, использовать эти данные для создания чего-то нового. Как сделать слова понятными для компьютеров? Используется векторизация. Рассмотрим несколько техник такой векторизации.

habr.com/ru/articles/778048/

#токен #векторизация #fasttext #word2vec #glove #CBOW #skipgram #tfidf #nlp_(natural_language_processing)

ХабрКраткий обзор техник векторизации в NLPНачало предисловия . Как переводчик-редактор, я интересуюсь темой NLP и автоматизации рутины бюро переводов. Изучая вопрос того, как смысл слов превращается в векторы, наткнулся на эту обзорную...

We recently concluded the first year of teaching Advanced Information Retrieval @elex and want to highlight five projects from the class: socialcomplab.github.io/advanc

The projects are diverse regarding what aspects of information retrieval they cover, the models used, and their domain, such as #Transformers, re-#ranking, #BERT opic, summarization, translation, #Word2Vec, content analysis, #IR pipelines, #T5, #programming languages, misinformation, #sBERT, tokenizers and encoders.

Advanced IR WS22Advanced IR WS22 Project HighlightsProject Highlights

We use the Fast Fourier Transform (#FFT) #algorithm to do #LossyCompression for things like images (e.g. jpeg). Most of the information is dropped and only the most important information is retained, which when reversed provides a noisy but recognisable version of the original image.

If this happens with a simple matrix of multi-dimensional vectors (e.g. a bitmap) could it not also be done with word embeddings like #word2vec to perform lossy compression on text? Is this a thing?