This was shared by someone recently, but I can't find it now. Otherwise, I would have boosted or h/t the original post.
A simple search engine from scratch
#search #word2vec
https://bernsteinbear.com/blog/simple-search/
This was shared by someone recently, but I can't find it now. Otherwise, I would have boosted or h/t the original post.
A simple search engine from scratch
#search #word2vec
https://bernsteinbear.com/blog/simple-search/
История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима
Доброго времени суток, «Хабр»! В предыдущей части мы рассмотрели историю языковых моделей от робких шагов Маркова до долгой краткосрочной памяти. Сегодня мы продолжим, пройдемся по ключевым архитектурам последних лет и разберём, как модели научились интерпретировать контекст, предсказывать и даже спорить логически. Пристегните токены — вход в зону трансформаций!
Next stop in our NLP timeline is 2013, the introduction of low dimensional dense word vectors - so-called "word embeddings" - based on distributed semantics, as e.g. word2vec by Mikolov et al. from Google, which enabled representation learning on text.
T. Mikolov et al. (2013). Efficient Estimation of Word Representations in Vector Space.
https://arxiv.org/abs/1301.3781
#NLP #AI #wordembeddings #word2vec #ise2025 #historyofscience @fiz_karlsruhe @fizise @tabea @sourisnumerique @enorouzi
Ведущий разработчик ChatGPT и его новый проект — Безопасный Сверхинтеллект
Многие знают об Илье Суцкевере только то, что он выдающийся учёный и программист, родился в СССР, соосновал OpenAI и входит в число тех, кто в 2023 году изгнал из компании менеджера Сэма Альтмана. А когда того вернули, Суцкевер уволился по собственному желанию в новый стартап Safe Superintelligence («Безопасный Сверхинтеллект»). Илья Суцкевер действительно организовал OpenAI вместе с Маском, Брокманом, Альтманом и другими единомышленниками, причём был главным техническим гением в компании. Ведущий учёный OpenAI сыграл ключевую роль в разработке ChatGPT и других продуктов. Сейчас Илье всего 38 лет — совсем немного для звезды мировой величины.
https://habr.com/ru/companies/ruvds/articles/892646/
#Илья_Суцкевер #Ilya_Sutskever #OpenAI #10x_engineer #AlexNet #Safe_Superintelligence #ImageNet #неокогнитрон #GPU #GPGPU #CUDA #компьютерное_зрение #LeNet #Nvidia_GTX 580 #DNNResearch #Google_Brain #Алекс_Крижевски #Джеффри_Хинтон #Seq2seq #TensorFlow #AlphaGo #Томаш_Миколов #Word2vec #fewshot_learning #машина_Больцмана #сверхинтеллект #GPT #ChatGPT #ruvds_статьи
https://fchollet.substack.com/p/how-i-think-about-llm-prompt-engineering
"Word2vec enabled you to do basic things like plural(cat) → cats or male_to_female(king) → queen. Meanwhile LLMs can do pure magic — things like write_this_in_style_of_shakespeare(“…your poem…”) → “…new poem…”. And they contain millions of such programs."
By vector math, recall #word2vec and nearest word to "king" - "man" + "woman" = "queen".
Learn a #vector representation for writers, philosophers, #political leaders and voices.
Map them and show a visualization of where major figures fall on this vector-space of their words.
Plug in writers who's ideas you like, average them and find the vector at the center and find others in that thought space.
Do the reverse - map voices you hate and see where they are and who's in between, etc.
Hoe neuronen taal verwerken: een diepgaand onderzoek https://www.trendingtech.news/trending-news/2024/07/23126/hoe-neuronen-taal-verwerken-een-diepgaand-onderzoek #neuronale taalverwerking #Neuropixel sondes #Word2Vec-techniek #semantische domeinen #cognitieve functies #Trending #News #Nieuws
LLMs and puzzles. An interesting read.
Apparently biology and intelligence doesn't bend to the will of storytellers.
Meanwhile, the word2vec yarn-spinning continues...
Что такое векторизация текста в NLP и какая она бывает: One-hot encoding, Bag of words, TF-IDF, Word2Vec, BERT и другие
Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников , и в этой статье я расскажу про разные способы векторизации текстов. Всем привет! Вдохновившись прикольной и понятной статьей на английском языке, и не найдя сходу чего-то похожего в русскоязычном сегменте интернета, решил написать о том, как обрабатывается текст перед тем, как на нем начинают применять разные модели ИИ. Эту статью я напишу нетехническим языком, потому что сам не технарь и не математик. Надеюсь, что она поможет узнать о NLP тем, кто не сталкивается с AI в продуктах на ежедневной основе. О чем эта статья:
https://habr.com/ru/articles/820159/
#Onehot_encoding #Bag_of_words #TFIDF #Word2Vec #BERT #NLP #nlp_(natural_language_processing) #nlpмодели
Better related posts with word2vec (C#) #code #software #word2vec #ithcwy #ml How to use word2vec to create a vector representation of a blog post and then use the cosine distance between posts to select improved related posts.
https://fed.brid.gy/r/https://ithoughthecamewithyou.com/post/better-related-posts-with-word2vec-c
A bittersweet retrospective by Tomas Mikolov on #word2vec after receiving the “Test Of Time” award for it at #NeurIPS:
Their seminal #paper was rejected four times :
[Перевод] Краткий обзор техник векторизации в NLP
Как переводчик-редактор, я интересуюсь темой NLP и автоматизации рутины бюро переводов. Изучая вопрос того, как смысл слов превращается в векторы, наткнулся на эту обзорную статью. Статья мне показалась изложенной доступно, поэтому я перевел ее для удобства других коллег. Работоспособность большей части кода проверял, вроде работает (см. Jupiter Notebook). Надеюсь, будет полезно. === Технологии NLP — Natural Language Processing, обработки естественного языка — позволяют компьютерам обрабатывать человеческий язык, понимать его значение и контекст, а также связанные с ним эмоциональную окраску и намерения, и далее, использовать эти данные для создания чего-то нового. Как сделать слова понятными для компьютеров? Используется векторизация. Рассмотрим несколько техник такой векторизации.
https://habr.com/ru/articles/778048/
#токен #векторизация #fasttext #word2vec #glove #CBOW #skipgram #tfidf #nlp_(natural_language_processing)
My online lecture of the #BigData class is on using #PySpark for machine learning using Spark #NLP (natural language processing) for #classification and #regression. #MachineLearning #orms #python #DataScience #dataanalytics #jupyter #notebook #randomforest #word2vec #opensource
Today's #ise2023 lecture was focusing on Naive Bayes Classification, POS Tagging, and distributional semantics with Word Embeddings
https://drive.google.com/drive/folders/11Z3_UGQjGONyHyZbj_kIdgT-LglZH4Ob
#nlp #lecture #classification #wordembeddings #languagemodels #word2vec #hiddenMarkovModel #distributionalsemantics @fizise @KIT_Karlsruhe #stablediffusionart #creativeAI
HIRING: Machine Learning Consultant (AI-Driven Sports Coaching) / Remote https://ai-jobs.net/job/48114-machine-learning-consultant-ai-driven-sports-coaching/ #AI #MachineLearning #DataJobs #AIcareers #MLjobs #bigdata #DataScience #AIjobs #hiringnow #RemoteJob #APIs #Architecture #Word2Vec #GloVe #gpt #gpt4 #BERT
We recently concluded the first year of teaching Advanced Information Retrieval @elex and want to highlight five projects from the class: https://socialcomplab.github.io/advancedIR-2022-showcase/
The projects are diverse regarding what aspects of information retrieval they cover, the models used, and their domain, such as #Transformers, re-#ranking, #BERT opic, summarization, translation, #Word2Vec, content analysis, #IR pipelines, #T5, #programming languages, misinformation, #sBERT, tokenizers and encoders.
We use the Fast Fourier Transform (#FFT) #algorithm to do #LossyCompression for things like images (e.g. jpeg). Most of the information is dropped and only the most important information is retained, which when reversed provides a noisy but recognisable version of the original image.
If this happens with a simple matrix of multi-dimensional vectors (e.g. a bitmap) could it not also be done with word embeddings like #word2vec to perform lossy compression on text? Is this a thing?