Разбор слова случайно по составу: Словарь синонимов sinonim.org

Маска для волос Ecolab Кератиновая Интенсивное восстановление Бразильский купуасу — «♥ Хуже кератинового шампуня от Эколаб может быть только кератиновая маска от Эколаб! Анализ состава, свотчи и фото ♥»

Приветствую всех заглянувших

 

С брендом ECOLAB я знакома довольно давно и много чего уже у них попробовала Некоторые продукты остались у меня на полке на ПМЖ и поселились в моем сердце ♥ А вот некоторые очень сильно разочаровали, с которыми, разумеется, я попрощалась навсегда

 

Одним из таких средств стала Кератиновая маска для волос серия «Страны» Бразильский купуасу от Ecolab.

 

Эту маску я приобрела в надежде на то, что мои сухие и посеченные кончики волос станут более увлажненными и напитанными. И в этом отзыве я хочу рассказать, что из этого получилось.

 

Объем — 250 мл

Производство — Россия, г. Москва

Место покупки — Магнит Косметикс

Срок годности — 30 месяцев; 12 месяцев после вскрытия упаковки

 

УПАКОВКА

 

Маска упакована в банку-шайбу из темного пластика.

Баночка сделана из PET-1 и перерабатывается

Как обычно отмечу, что у продукции от Эколаба есть защитная фольга — это большой плюс.

Кератиновая маска для волос Бразильский купуасу Ecolab — отзыв

Дизайн узнаваемый и лаконичный. Оформление у серии «Страны» выглядит стильно и красиво: не стыдно такое и подарить.

 

Что мне не понравилось в оформлении, так это то, что очень мелко написана вся информация. Люди с плохим зрением просто не смогут все разобрать. Даже мне с хорошим зрением было сложно читать информацию о продукте, состав и т.д. Плюс светлые (хоть и красивого цвета) буквы на темном фоне в принципе тяжело читаемы.

Кератиновая маска для волос Бразильский купуасу Ecolab — информация

Еще хочу отметить, что на упаковке есть значок с кроликом, а это значит, что данный продукт не тестируется на животных! И это для меня ОГРОМНЫЙ ПЛЮС!

 

ИНФОРМАЦИЯ ОТ ПРОИЗВОДИТЕЛЯ:

Активная маска мгновенного действия восстанавливает волосы по всей длине благодаря насыщенному комплексу керапептидов укрепляет волосы по всей длине, восстанавливает структуру волос, защищает от микроповреждений, при термоукладке, устраняет сечение и ломкость, делает волосы блестящими и шелковистыми. Комплекс витаминов (РР, В5, С, Е, В6) насыщает волосы, заметно улучшает их состояние и внешний вид.

Информация есть на русском и английском языках.

 

НО мне было странно, что не слова не сказано о бразильском купуасу. Ведь по сути это «лицо» данной маски.

Он нарисован на этикетке и присутствует в названии. Но что это, и что он делает в этом продукте, для чего он — не ясно…

Я порылась в интернетике и нашла про него следующее:

Купуасу (cupuaçu) — фрукт из влажных лесов Амазонии, родственник какао. Его не выращивают нигде, кроме Бразилии! Плоды и сок купуасу богаты железом, фосфором и протеинами, витаминами С, В1, В2, В5 и таннинами. Масло из семян бразильского фрукта купуасу благодаря содержанию фитостеролов обладает сильным противовоспалительным действием, а вследствие высокой водной абсорбирующей способности отлично увлажняет кожу.

 

СПОСОБ ПРИМЕНЕНИЯ:

Нанести небольшое количество маски на влажные волосы, оставить на 2-5 мин, смыть водой. Для наружного применения.

 

КОНСИСТЕНЦИЯ, АРОМАТ

 

Маска достаточно густая по консистенции, плотная. Распределяется вполне неплохо. В целом обычная для масок для волос

Аромат приятный сладенький. Пахнет ягодками с легкими нотками ореховости и сливочности. Мне понравился. На волосах не остается.

Кератиновая маска для волос Бразильский купуасу Ecolab — свотч

Кератиновая маска для волос Бразильский купуасу Ecolab — свотч

СОСТАВ:

Aqua, Theobroma Grandiflorum Seed Butter (Масло Купуасу), Cetearyl Alcohol, Behentrimonium Chloride, Butyrospermum Parkii (Shea) Butter (масло Ши), Caprylic/Capric Triglyceride, Persea Gratissima (Avocado) Oil (масло Авокадо), Hydrolyzed Keratin, Behentrimonium Chloride, Niacinamide, Calcium Pantothenate, Sodium Ascorbyl Phosphate, Tocopheryl Acetate, Pyridoxine HCl, Maltodextrin, Sodium Starch Octenylsuccinate, Glycerin, Cellulose, Betaine,Сetrimonium Chloride, Perfume, Benzyl Alcohol, Caprylyl Glycol, Silica, Citric Acid, Sodium Benzoate, Potassium Sorbate

 

АНАЛИЗ И РАЗБОР СОСТАВА

Кератиновая маска для волос Бразильский купуасу Ecolab разбор состава

На втором месте после воды в составе Theobroma Grandiflorum Seed Butter — это как раз таки тот самый купуасу, а точнее масло семян:

Theobroma Grandiflorum Seed Butter — Кондиционирование кожи, снимает воспаление, эмолент, увлажнитель, защитная функция, улучшает состояние волос. Безопасен при использовании по назначению

Также есть и другие прекрасные масла: ши и авокадо. Есть и кератин, который обещали в названии в маски И все они находятся в первой половине заявленного состава, а как мы знаем компоненты в составе указываются в порядке убывания концентрации. Простыми словами — чего больше положили, то пишут в начале состава

 

Но к сожалению меня огорчили синтетические компоненты, которые потенциально опасны. Это бегентримония хлорид и цетримония хлорид.

Behentrimonium Chloride — синтетический компонент, используемый как кондиционер для кожи и волос, смягчающий компонент, антистатик. Вызывает раздражение на коже и слизистой оболочке.

Cetrimonium Chloride — синтетический консервант. Используется в кондиционерах для волос и шампунях. Антистатическое действие. Эмульсионный стабилизатор. Антисептик. Может раздражать кожу и вызывать аллергии. Загрязняет окружающую среду.

 

МОИ ОЩУЩЕНИЯ ОТ ПРИМЕНЕНИЯ

 

К сожалению, маска мне не понравилась ну вот прям совсем( Вместо восстановления состояние волос ухудшилось( Кончики волос стали еще более жесткие, посеченные и стали напоминать солому

 

Вот несколько основных моментов, которые я для себя отметила при применении:

 

✔ Волосы у меня тонкие и мягкие от природы, густоты нет. Есть длина до поясницы и уже жесткие ломкие концы с сечением Маску я наношу на половину длины, т.к. если нанести на всю длину от корней, объема у меня не будет от слова совсем(( Плюс будет дикое пушение…

 

✔ Маска хорошо наносится и смывается, консистенция мне понравилась. В этом плане все хорошо.

 

✔ Эффекта по факту 0 Я сушила волосы без фена. Банку я дотратила всю, нет ни разового эффекта, ни накопительного. Более того, волосы СТАЛИ ТОЛЬКО ХУЖЕ Кончики иссохли и стали похожи на солому Это просто жесть…

 

В итоге я очень расстроилась, ведь покупая уходовое средство, хочется улучшить состояние волос, а не сделать всё еще хуже за свои же деньги.

.. Я понимаю, что всё индивидуально, но напомню, что здесь я пишу о своём опыте, собственно, как и в других своих отзывах…

 

И кстати, я не случайно выбрала фон с сухоцветами для этой маски 😉

 

Ну и разумеется, эту маску для волос я не рекомендую

Единственными положительными моментами для меня оказались то, что продукт не тестируется на животных и перерабатываемая упаковка.

 

Надеюсь, мой отзыв был Вам полезен!

Пишите комментарии, задавайте вопросы — буду рада обсудить с Вами тему!))

Всем добра и красоты!

 

Если Вам интересны уходовые средства, косметика и животные, подписывайтесь или

заходите ко мне в профиль Буду рада

 

Отзывы по теме:

Маски для волос:

Маска для волос Крымская мануфактура «Дом природы» с грязью Сакского озера

Маска для волос Occuba Professional Питательная

7 полезных привычек для роста и укрепления волос + РЕЦЕПТ МОЕЙ МАСКИ

 

Косметика от ECOLAB:

Кератиновый шампунь ECOLAB

Укрепляющий шампунь ECOLAB

Крем для кожи вокруг глаз Ecolab Глубокое восстановление

Скраб для тела ECOLAB Солевой «Лифтинг»

Пенка для умывания ECOLAB «Увлажняющая» для сухой и чувствительной кожи

Функция

— извлекать случайные ключи из словаря в Python, которые не равны друг другу

Как объясняли другие, random.

sample — лучший способ сделать то, что вы хотите.

Чтобы объяснить, почему ваш исходный код не работал:

Первая проблема, есть логическая ошибка в цикле while — он завершится, как только два элемента будут разными (например, 'a' == 'a ' == 'b' равно True, и цикл завершится), исправить это можно несколькими способами:

 пока нет (key1 != key2 != key3):
 

В качестве альтернативы набор может содержать только уникальные элементы, поэтому, когда длина набора set([key1, key2, key3]) равна 3, все три значения различны:

 while len(set([key1, ключ2, ключ3]) != 3:
 

Вторая проблема и причина, по которой код отказывается выполняться:

key1 key2 key3 определяются как глобальные переменные ( key1 = ' ' находятся на верхнем уровне вашего

файла .py` , а не в функции)

Вы можете без проблем найти глобальную переменную в функции (например, где вы сделали , в то время как key1 == key2 . .. ). Ошибка возникает из-за того, что вы также пытаетесь присвоить key1 в своем цикле — это сбивает с толку анализатор Python, потому что вы ищете глобальную переменную в части , в то время как key1 == ... , но пытаетесь сделать новую локальную переменную функции на следующей строке, поэтому она выдает ошибку.

Дурацкий способ исправить это так:

 ключ 1 = ' '
ключ2 = ''
ключ3 = ''
деф нодупвыбор():
    глобальный ключ1
    глобальный ключ2
    глобальный ключ3
    пока нет (key1 != key2 != key3):
        key1 = random.choice(word_drills.keys())
        key2 = random.choice(word_drills.keys())
        key3 = random.choice(word_drills.keys())
 

Тогда это будет работать так, как вы задумали, но не делайте этого — глобальные переменные имеют свое применение, но это не такая ситуация..

Вместо использования глобальной переменной вы можете легко вернуть несколько значений из функции :

 по умолчанию nodupchoice():
    key1 = ' ' # локальные переменные, недоступные вне этой функции
    ключ2 = ''
    ключ3 = ''
    пока нет (key1 != key2 != key3):
        key1 = random. choice(word_drills.keys())
        key2 = random.choice(word_drills.keys())
        key3 = random.choice(word_drills.keys())
    вернуть ключ1, ключ2, ключ3
ключ1, ключ2, ключ3 = nodupchoice()
print "Ключ #1: %s, Ключ #2: %s, Ключ #3: %s" % (key1, key2, key3)
 

О, а еще лучше, вы можете пройти в word_drills в качестве аргумента:

 def nodupchoice(things):
    key1 = ' ' # локальные переменные, недоступные вне этой функции
    ключ2 = ''
    ключ3 = ''
    пока нет (key1 != key2 != key3):
        key1 = random.choice(вещи)
        key2 = random.choice(вещи)
        key3 = random.choice(вещи)
    вернуть ключ1, ключ2, ключ3
key1, key2, key3 = nodupchoice(word_drills)
 

… и вы написали функцию, почти идентичную random.sample(word_drills, 3) !

Тематическое моделирование и скрытое распределение Дирихле (LDA) с использованием Gensim

Эта статья была опубликована в рамках блога Data Science Blogathon

В предыдущей статье мы начали с понимания основных терминов текста в обработке естественного языка (NLP), что такое тематическое моделирование, его приложения, типы моделей и различные доступные методы тематического моделирования.

Давайте продолжим отсюда, рассмотрим скрытое распределение Дирихле (LDA), работу LDA и его сходство с другим очень популярным методом уменьшения размерности, называемым анализом главных компонентов (PCA).

 

Содержание
  • Немного предыстории LDA
  • Скрытое распределение Дирихле (LDA) и его процесс
    • Как работает LDA и как он будет получать определенные дистрибутивы?
    • Векторное пространство LDA
    • Как LDA будет оптимизировать дистрибутивы?
    • LDA — это итеративный процесс
  • Сходство между LDA и PCA

Немного предыстории LDA

Скрытое распределение Дирихле (LDA) — популярный метод моделирования тем для извлечения тем из заданного корпуса. Термин «латентный» означает то, что существует, но еще не развито. Другими словами, латентный означает скрытый или утаенный.

Теперь темы, которые мы хотим извлечь из данных, также являются «скрытыми темами». Это еще предстоит обнаружить. Отсюда и термин «латентный» в LDA. Распределение Дирихле следует за распределением и процессом Дирихле.

Названные в честь немецкого математика Петера Густава Лежена Дирихле, процессы Дирихле в теории вероятностей представляют собой «семейство случайных процессов, реализациями которых являются распределения вероятностей».

Этот процесс представляет собой распределение по распределениям, что означает, что каждое взятие из процесса Дирихле само по себе является распределением. Это означает, что процесс Дирихле представляет собой распределение вероятностей, где диапазон этого распределения сам по себе является набором распределений вероятностей!

Хорошо, это здорово! Но как процесс Дирихле помогает нам в извлечении тем из документов? Помните из части 1 блога, тем или тем составляют группу из статистически значимых слов в корпусе.

Итак, не вдаваясь в технические подробности процесса, в нашем контексте модель Дирихле описывает структуру слов, которые повторяются вместе, встречаются часто, и эти слова похожи друг на друга.

И этот стохастический процесс использует байесовские выводы для объяснения «априорных знаний о распределении случайных величин». В случае тематического моделирования процесс помогает оценить, каковы шансы того, что слова, разбросанные по документу, появятся снова? Это позволяет модели строить точки данных, оценивать вероятности, поэтому LDA является разновидностью генеративной вероятностной модели.

LDA генерирует вероятности для слов, с помощью которых формируются темы, и в конечном итоге темы классифицируются в документы.

Скрытое распределение Дирихле (LDA) и его процесс

Инструмент и метод моделирования темы, скрытое распределение Дирихле (LDA) классифицирует или категоризирует текст в документ и слова по теме, они моделируются на основе распределений и процессов Дирихле.

LDA делает два основных предположения:

  1. Документы представляют собой смесь тем и
  2. Темы представляют собой смесь токенов (или слов)

И эти темы с помощью распределения вероятностей генерируют слова. На статистическом языке документы известны как плотность вероятности (или распределение) тем, а темы — это плотность вероятности (или распределение) слов.

Итак, как работает LDA и как он будет получать конкретные распределения?

Во-первых, LDA применяет два вышеупомянутых важных предположения к данному корпусу. Допустим, у нас есть корпус со следующими пятью документами:

  • Документ 1: Я хочу посмотреть фильм на выходных.
  • Документ 2: Вчера я ходил по магазинам. Новая Зеландия выиграла чемпионат мира по тестированию, победив Индию с разницей в восемь калиток в Саутгемптоне.
  • Документ 3: Я не смотрю крикет. На Netflix и Amazon Prime можно посмотреть очень хорошие фильмы.
  • Документ 4: Фильмы — хороший способ расслабиться, но на этот раз я хотел бы рисовать и читать хорошие книги. Это было так давно!
  • Документ 5: Этот черничный молочный коктейль такой вкусный! Попробуйте прочитать книги доктора Джо Диспензы. Его работа меняет правила игры! Его книги помогли узнать так много о том, как наши мысли влияют на нашу биологию и как мы все можем перепрограммировать свой мозг.

Любой корпус, представляющий собой набор документов, может быть представлен в виде слова-документа (или матрицы терминов документа), также известного как DTM.

Мы знаем, что первый шаг работы с текстовыми данными — это очистка, предварительная обработка и преобразование текста в слова. После предварительной обработки документов мы получаем следующую матрицу слов документа, где:

  • D1, D2, D3, D4 и D5 — это пять документов, а
  • слова представлены буквой W, скажем, есть 8 уникальных слов от W1 до W8.

Следовательно, форма матрицы 5 * 8 (пять строк и восемь столбцов):

Итак, теперь корпус представляет собой предварительно обработанную выше матрицу документов и слов, в которой каждая строка является документом, а каждый столбец — токенами или словами.

LDA преобразует эту матрицу слова документа в две другие матрицы: матрицу терминов документа и матрицу слова темы, как показано ниже:

Эти матрицы:

  • Матрица Document-Topic уже содержит возможные темы (обозначенные K выше), которые могут содержать документы. Предположим, у нас есть 5 тем и 5 документов, поэтому матрица имеет размерность 5*6

    .
  • Матрица Topic-Word содержит слова (или термины), которые могут содержаться в этих темах. У нас есть 5 тем и 8 уникальных токенов в словаре, поэтому матрица имеет вид 6*8.

Векторное пространство LDA

Все пространство LDA и его набор данных представлены на диаграмме ниже:

Источник: researchgate.net

  • Желтая рамка относится ко всем документам в корпусе (обозначен буквой М). В нашем случае M = 5, так как у нас 5 документов.
  • Затем прямоугольник персикового цвета обозначает количество слов в документе, заданное N
  • .
  • Внутри этой коробки с персиками может быть много слов. Одним из таких слов является w, которое находится в синем цветовом круге.

Согласно LDA, каждое слово связано (или связано) с латентной (или скрытой) темой, которая здесь обозначена буквой Z. Теперь это присвоение Z слову темы в этих документах дает распределение слов темы, присутствующее в корпус, представленный тета (𝛳).

Модель LDA имеет два параметра, управляющих распределениями:

  1. Alpha (ɑ) управляет распределением тем по документам, а
  2. Бета (ꞵ) элементы управления распределением слов по темам

Подводя итог:

  • М: всего документов в корпусе
  • N: количество слов в документе
  • w: Слово в документе
  • z: скрытая тема назначена слову
  • тета (𝛳): тема распределения
  • Параметры модели LDA: Alpha (ɑ) и Beta (ꞵ)

 

Как LDA оптимизирует дистрибутивы?

Конечная цель LDA состоит в том, чтобы найти наиболее оптимальное представление матрицы «Документ-Тема» и «Тема-Слово», чтобы найти наиболее оптимизированное распределение «Документ-Тема» и «Тема-Слово».

Поскольку LDA предполагает, что документы представляют собой смесь тем, а темы представляют собой смесь слов, поэтому LDA откатывается от уровня документа, чтобы определить, какие темы могли породить эти документы и какие слова могли породить эти темы.

Теперь наш корпус из 5 документов (от D1 до D5) с соответствующим количеством слов:

  • D1 = (w1, w2, w3, w4, w5, w6, w7, w8)
  • D2 = (w`1, w`2, w`3, w`4, w`5, w`6, w`7, w`8, w`9, w`10)
  • D3 = (w“1, w“2, w“3, w“4, w“5, w“6, w“7, w“8, w“9, w“10, w“11, w“ 12, ш“13, ш“14 ш“15)
  • D4 = (w»`1, w»`2, w»`3, w»`4, w»`5, w»`6, w»`7, w»`8, w»`9, w «`10, ж»`11, ж»`12)
  • D5 = (w»»1, w»»2, w»»3, w»»4, w»»5, w»»6, w»»7, w»»8, w»»9, w «10,…, ж» «32, ж» «33, ж» «34)

 

LDA — итеративный процесс
Первая версия LDA:

В первой итерации он случайным образом присваивает темы каждому слову в документе. Темы обозначаются буквой k. Итак, в нашем корпусе слова в документах будут связаны с некоторыми случайными темами, как показано ниже:

  • D1 = (w1 (k5), w2 (k3), w3 (k1), w4 (k2), w5 (k5), w6 (k4), w7 (k7), w8 (k1))
  • D2 = (w`1(k2), w`2 (k4), w`3 (k2), w`4 (k1), w`5 (k2), w`6 (k1), w`7 ( л5), ж`8(лиц3), ж`9(7 лиц), изн`10(1 лиц))
  • D3 = (w“1(k3), w“2 (k1), w“3 (k5), w“4 (k3), w“5 (k4), w“6(k1),…, w“ 13 (1 лиц), 14 изн (3 лиц), 15 изн (2 лиц))
  • D4 = (w»`1(k4), w»`2 (k5), w»`3 (k3), w»`4 (k6), w»`5 (k5), w»`6 (k3 ) …, w“`10 (3 лиц), w“`11 (7 лиц), w“`12 (1 лиц))
  • D5 = (w»»1 (k1), w»»2 (k7), w»»3 (k2), w»»4 (k8), w»»5 (k1), w»»6(k8 ) …, w»»32(k3), w»»33(k6), w»»34(k5))

Это дает вывод в виде документов с составом тем и тем, состоящих из слов:

Документы представляют собой смесь тем:

  • D1 = k5 + k3 + k1 + k2 + k5 + k4 + k7+ k1
  • D2 = k2 + k4 + k2 + k1 + k5 + k2 + k1+ k5 + k3 + k7 + k1
  • D3 = k4 + k5 + k3 + k6 + k5 + k3 + … + k3+ k7 + k1
  • D3 = k1 + k7 + k2 + k8 + k1 + k8 + … + k3+ k6 + k5

Темы представляют собой смесь слов:

  • K1 = w3 + w8 + w`4 + w`6 + w’10 + w“2 + w“6 + … + w“13 + w“`12 + w“1 + w“5
  • К2 = w4 + w`1 + w`3 + w“15 + …. + w““3 + …
  • K3 = w2 + w’8 + w“1 + w“4 + w“14 + w“`3 + w“`6 + … + w“`10 + w““32 + …

Аналогичным образом LDA выдаст словосочетания по другим темам.

Опубликовать первую итерацию LDA:

После первой итерации LDA предоставляет исходные матрицы тема-документ и тема-слово. Задача состоит в том, чтобы оптимизировать эти полученные результаты, что и делает LDA, перебирая все документы и все слова.

LDA делает еще одно предположение о том, что все назначенные темы верны, кроме текущего слова. Таким образом, на основе этих уже правильных назначений слов темы LDA пытается исправить и скорректировать назначение темы текущего слова с новым назначением, для которого:

LDA будет перебирать: каждый документ «D» и каждое слово «w»

Как это сделать? Это достигается путем вычисления двух вероятностей: p1 и p2 для каждой темы (k), где:

  • P1: доля слов в документе (D), которые в настоящее время относятся к теме (k)

  • P2: доля присвоений теме(k) по всем документам, происходящим от этого слова w. Другими словами, p2 — это доля тех документов, в которых слово (w) также отнесено к теме (k)

Формула для p1 и p2:

  • P1 = пропорция (тема k / документ D) и
  • P2 = пропорция (слово с темой k)

Теперь, используя эти вероятности p1 и p2, LDA оценивает новую вероятность, являющуюся произведением (p1*p2), и посредством этой вероятности произведения LDA идентифицирует новую тему, которая является наиболее релевантной темой для текущего слова. .

Переназначение слова «w» документа «D» новой теме «k» через вероятность произведения p1 * p2

Теперь LDA выполняется для большого количества итераций для шага выбора новой темы «k», пока не будет получено установившееся состояние. Точка сходимости LDA достигается там, где он дает наиболее оптимизированное представление матрицы терминов документа и матрицы тематических слов.

Это завершает работу и процесс скрытого распределения Дирихле.

Теперь, прежде чем перейти к реализации LDA, вот еще одна вещь…

Сходство между LDA и PCA

Тематическое моделирование аналогично анализу главных компонентов (PCA). Вам может быть интересно, как это? Позвольте мне объяснить.

Итак, PCA — это метод уменьшения размерности, верно? И он используется для данных, имеющих числовые значения. Это линейная комбинация переменных, из которых получаются компоненты, используемые для построения модели. PCA работает, разбивая или разлагая большее значение (т.е. сингулярное значение) на меньшие значения, чтобы уменьшить размеры.

LDA работает так же, как и PCA. LDA применяется к текстовым данным. Он работает путем разложения матрицы слов документа корпуса (большая матрица) на две части (меньшие матрицы): матрицу темы документа и слово темы. Следовательно, LDA, как и PCA, является методом матричной факторизации.

Допустим, у нас есть следующий корпус документов, содержащий размеченные слова свободный удар, данк, подбор, фол, бросок, НБА, Ливерпуль, как показано ниже:

Источник: miro.medium.com

В случае, если мы не применяем LDA или какой-либо из методов тематического моделирования, у нас будет

токенизированных слова (после шагов предварительной обработки текста), которые находятся на левой панели изображения выше. Затем эти слова будут переданы для построения модели и могут иметь больше функций (больше, чем представлено на изображении).

Теперь, вместо того, чтобы использовать токенизированные слова, полученные после применения векторизатора Bag of Words, если мы преобразуем исходную матрицу слов документа в две части: одну для слова по теме, а другую для темы по документу.

Смотрите, на изображении выше, вместо того, чтобы использовать слова: штрафной удар, данк, подбор, фол, удар, НБА, Ливерпуль, мы объединили похожие слова в две группы: футбол и баскетбол.

Это дало нам две разные темы: одна о футболе, где футбол состоит из слов свободный удар, удар и Ливерпуль, а другая тема Баскетбол состоит из слов данк, подбор, фол и НБА.

Это нарушение первоначальной матрицы признаков больших слов не только позволило нам классифицировать текст по документам, но и существенно сократило количество признаков, используемых для построения модели.

LDA разбивает слово корпусного документа на матрицы меньшей размерности. Поэтому тематическое моделирование и его методы также используются для уменьшения размерности.

Концевые сноски

Скрытое распределение Дирихле (LDA) выполняет две задачи: находит темы в корпусе и в то же время присваивает эти темы документу, присутствующему в том же корпусе. На приведенной ниже схематической диаграмме хорошо показан процесс LDA:

Источник: researchgate.net

Мы применим всю теорию, которую мы изучили, и выполним на Python, используя пакеты gensim и sklearn, в следующей и последней части серии «Тематическое моделирование».

Каталожные номера:

  • https://en.wikipedia.org/wiki/Dirichlet_process
  • Процесс Дирихле Йи Уай Тех, Университетский колледж Лондона

Спасибо за чтение и счастливого обучения! 🙂

Обо мне

Привет! Я Неха Сет, технический писатель AnalytixLabs. У меня есть последипломная программа по науке о данных и инженерии в Институте менеджмента Великих озер и степень бакалавра статистики.

admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *