mstdn.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
A general-purpose Mastodon server with a 500 character limit. All languages are welcome.

Administered by:

Server stats:

15K
active users

#lstm

0 posts0 participants0 posts today

UEBA в кибербезе: как профилирование поведения пользователей на основе Autoencoder помогает выявлять угрозы и аномалии

В современном мире количество атак растёт пропорционально количеству внедрений новых технологий, особенно когда технологии ещё недостаточно изучены. В последнее время атаки становятся всё более разнообразными, а методы их реализации — всё более изощрёнными. Дополнительные проблемы несут и методы искусственного интеллекта, которыми вооружаются специалисты RedTeam. В руках опытного специалиста эти инструменты становятся реальной угрозой безопасности потенциальных целей. Большинство средств информационной безопасности основаны на корреляционных или статистических методах, которые в современных реалиях часто оказываются неэффективными. Что же тогда остаётся специалистам BlueTeam?

habr.com/ru/companies/gaz-is/a

ХабрUEBA в кибербезе: как профилирование поведения пользователей на основе Autoencoder помогает выявлять угрозы и аномалииВ современном мире количество атак растёт пропорционально количеству внедрений новых технологий, особенно когда технологии ещё недостаточно изучены. В последнее время атаки становятся всё более...

Первая ИИ-модель для обучения на тексте

Привет, будущие разработчики! Сегодня я расскажу вам, как создать свою первую модель искусственного интеллекта. Это материал совсем для начинающих, так что не переживайте — никаких сложных терминов и запутанных выражений. Всё, что понадобится, — ваши идеи и немного кода. Будем писать на Python и использовать TensorFlow — мощную библиотеку от Google для машинного обучения.

habr.com/ru/companies/otus/art

Сердце насоса склонно к износу: предиктивная аналитика как гарант надёжности оборудования

Износ, старение и простои насосного оборудования создают серьёзные проблемы для многих предприятий, влияя на производительность и увеличивая затраты. В этой статье мы расскажем о нашем опыте использования предиктивного анализа на основе нейросетей LSTM для прогнозирования состояния насосов. Узнать об опыте

habr.com/ru/articles/857442/

ХабрСердце насоса склонно к износу: предиктивная аналитика как гарант надёжности оборудованияИзнос, старение и простой насосного оборудования, представляет серьёзную проблему для многих предприятий. В условиях, когда обновление парка оборудования невозможно из‑за финансовых,...

Продолжение исследования RNN

С прошлой статьи я внёс несколько изменений: 1. Планировщик был сломан и не изменял скорость. Починил. 2. Остаточное соединение через умножение. 3. WindowedDense для выходной проекции. 4. Добавил clipnorm 1, cutoff_rate 0.4 Как обычно это всё добавляет стабильности и 1% точности. WindowedDense по неизвестной мне причине добавляет SMR стабильность.

habr.com/ru/articles/851182/

ХабрПродолжение исследования RNNС прошлой статьи я внёс несколько изменений: 1. Планировщик был сломан и не изменял скорость. Починил. 2. Остаточное соединение через умножение. 3. WindowedDense для выходной проекции. 4. Добавил...
#rnn#lstm#gru

Рекурретные нейронные сети наносят ответный удар

Рекуррентные нейронные сети (RNN), а также ее наследники такие, как LSTM и GRU, когда-то были основными инструментами для работы с последовательными данными. Однако в последние годы они были почти полностью вытеснены трансформерами (восхождение Attention is all you need ), которые стали доминировать в областях от обработки естественного языка до компьютерного зрения. В статье " Were RNNs All We Needed ?" авторы пересматривают потенциал RNN, адаптируя её под параллельные вычисления. Рассмотрим детальнее, в чем же они добились успеха.

habr.com/ru/articles/848480/

ХабрРекурретные нейронные сети наносят ответный ударРекуррентные нейронные сети (RNN), а также ее наследники такие, как LSTM и GRU, когда-то были основными инструментами для работы с последовательными данными. Однако в последние годы они были почти...

xLSTM is a combination of transformer technology and long-term memory. The result is an architecture that performs better in terms of performance and scalability than the transformers currently in use, the researchers write.

arxiv.org/abs/2405.04517

arXiv.orgxLSTM: Extended Long Short-Term MemoryIn the 1990s, the constant error carousel and gating were introduced as the central ideas of the Long Short-Term Memory (LSTM). Since then, LSTMs have stood the test of time and contributed to numerous deep learning success stories, in particular they constituted the first Large Language Models (LLMs). However, the advent of the Transformer technology with parallelizable self-attention at its core marked the dawn of a new era, outpacing LSTMs at scale. We now raise a simple question: How far do we get in language modeling when scaling LSTMs to billions of parameters, leveraging the latest techniques from modern LLMs, but mitigating known limitations of LSTMs? Firstly, we introduce exponential gating with appropriate normalization and stabilization techniques. Secondly, we modify the LSTM memory structure, obtaining: (i) sLSTM with a scalar memory, a scalar update, and new memory mixing, (ii) mLSTM that is fully parallelizable with a matrix memory and a covariance update rule. Integrating these LSTM extensions into residual block backbones yields xLSTM blocks that are then residually stacked into xLSTM architectures. Exponential gating and modified memory structures boost xLSTM capabilities to perform favorably when compared to state-of-the-art Transformers and State Space Models, both in performance and scaling.

Das war eine sehr unterhaltsame Recherche, bei der ich Sepp Hochreiter getroffen habe - ein Pionier des maschinellen Lernens, der mit seiner alten Idee (#lstm) jetzt OpenAi „vom Markt fegen“ will.

Ob dieser alte Algorithmus wirklich das Zeug dazu hat, große Sprachmodelle zu revolutionieren, kann ich schwer einschätzen. Was mir aber immer klarer wurde in letzter Zeit: Transformermodelle sind an ihrer Grenze. Von daher wird sich was bewegen müssen.

zeit.de/digital/2024-05/sepp-h

ZEIT ONLINESepp Hochreiter: Sepp strikes backSepp Hochreiter hat in den Neunzigerjahren die künstliche Intelligenz revolutioniert. Dann kamen andere. Jetzt will er wieder angreifen und ein besseres ChatGPT bauen.

I recently found on Cornell #arXive a new pre-print (2023) on #RNN and #LSTM by Alex Sherstinsky of MIT. Through the years, I've read numerous papers on RNNs, starting with Rumelhart's 1986 paper. But this one is, by far, the most detailed tutorial not only on RNNs but also on LSTMs.

The complete derivations of both forward (inference) and backward (training) passes of the learning algorithm use only basic calculus and matrix algebra, drawing intuitive analogies to digital signal processing #DSP. And the equations are complete and detailed enough to be implemented by the student, directly in software. In my opinion, every undergrad EE and CS studying #DeepLearning #NeuralNetworks should read this superb introduction.

arxiv.org/pdf/1808.03314.pdf

New paper ! We measured expected directional effects on thermal infrared satellite images from #TRISHNA, #LSTM or #SBG missions, using simultaneous acquisitions from #LANDSAT and an aerial imager #MASTER from @NASAJPL

Differences up to 4.5 degrees in #TRISHNA field of view have been observed, which can be corrected to less than 2°K using very simple models.

For more details and to access the paper : labo.obs-mip.fr/multitemp/hr-t