Три маршрута по Украине на майские: реки, каньоны, водопады
Майские праздники — это всегда длинные выходные, которые хочется провести в путешествии. «Вести» собрали три интереснейших маршрута, следуя которым можно побывать в живописных каньонах, увидеть водопады Тернопольской и Хмельницкой областей, объехать вокруг Каневского водохранилища с видом на бескрайние днепровские берега, чтобы набраться сил у природы. Конечно же, помним о мерах безопасности в период пандемии.
Маршрут «Водопадами Подолья» — каскады Тернопольской и Хмельницкой областейВесной водопады становятся полноводными — это лучшее время, чтобы увидеть их во всей мощи в лучах яркого солнца. В Тернопольской и Хмельницкой областях в районе национального парка «Днестровский каньон» есть несколько водопадов, которые можно собрать в один маршрут и объехать за два-три дня.
Первыми на пути от Тернополя расположены Русиловские водопады. Небольшое село Русилов Бучацкого района известно на всю Украину красивыми водными каскадами высотой от одного до 12 метров. На протяжении почти трех километров один за другим с невысоких уступов ниспадают двенадцать шумных водопадов, по которым вода с разной высоты попадает в реку Стрипу — один из притоков Днестра. Мощные подземные источники и геологические процессы, длившиеся миллионы лет, образовали ступенчатые каскады в лесном урочище среди обрывистых скал. Здесь на поверхность земли выступают различные породы, через которые пробивают себе дорогу десятки потоков, образуя небольшие полости и гроты. Водопады спадают в небольшие озерца шириной от двух до 15 метров. Раньше спуск к ним был довольно затрудненным, но весной 2021 года местными властями было принято решение — и теперь оборудован безопасный спуск с перилами, установлены предупредительные знаки на травмоопасных участках.
Из Киева по трассе М50 до Тернополя, далее по М18 до Бачача, там повернуть в сторону Золотого потока и ехать до села Соколов, возле него поворот на Русилов.
Следующая остановка — Водопад «Девичьи слезы», который стоит включить в поездку по Тернопольским каскадам. Он находится недалеко от базы отдыха «Над Стрипой» в селе Скоморохи. Тут, кстати, можно остановиться на ночь, а заодно исследовать новый каскад. Водопад — в большом красивом каньоне. Серебристые струи воды спадают с высоты в девять метров. Весной он полноводный и напоминает карпатские бурные каскады, а летом во время засухи пересыхает, оставляя маленький ручеек.
Как добратьсяОт Русилова вернуться в село Соколов. Там найти указатель на базу «Над Стрипой» и ехать до села Скоморохи. Водопад находится у ручья, протекающего слева от въезда на базу.
Чтобы составить полную картину природных чудес Тернопольщины, нужно добавить в копилку путешествия Джуринский водопад — самый высокий равнинный каскад Украины. Он — у подножия холма, на котором сохранились башни и часть стен Червоноградского замка, построенного еще в IX веке. Сегодня замок в полуразрушенном состоянии, его окружают буковые леса. Но башни, покрытые зубчатой короной, все равно виднеются с соседних холмов. У замка протекает река Джурин, образовавшая каскады, которые весной с шумом низвергаются с шестнадцатиметровой высоты. Вода в Джуринском водопаде обладает целебными свойствами. Летом сюда приезжают, чтобы купаться, подставив тело водному природному массажу. А заодно увидеть живописные руины древнего замка.
От Тернополя по трассе М19 120 км до Ныркова.
Недалеко от Джуринского водопада есть еще один — водопад Печеры. Он находится абсолютно диком и труднодоступном месте, где редко ступает нога человека. Этот водопад не такой большой и шумный, но тоже очень красивый, и здесь вы точно не встретитесь с большим скоплением людей. Неподалеку расположено село Литячи, в котором есть природный памятник — «Литяцький дуб». Огромное дерево высотой 25 метров, которому более 300 лет. Во время польского господства в дупле дерева находилась икона, которой поклонялись верующие. Село расположено на берегу Днестровского каньона — отсюда открывается красивый вид на изгибы Днестра, посреди которого образовались два маленьких острова в форме знаков инь и янь.
Как добратьсяИз Ныркова 25 км через Нагоряны и Устечко.
А на обратном пути обязательно посмотрите два водопада в Хмельницкой области. Первый — это водопад Бурбун возле села Лысец. Очень красивый, хотя и невысокий, вокруг него образовалось живописное озеро, будто чаша с чистой и прохладной водой. Когда попадаешь в это место, просто не веришь, что находишься в своей родной Украине — водопад напоминает небольшой лесной каскад, каких много в Юго-Восточной Азии. Местная громада заботится об этом месте и бережет его, тут есть мостки и лавочки.
Как добраться
Из Каменец-Подольского по трассе до Дунаевцев, там поворот на Т2303 до села Лысец.
А второй — удивительный рукотворный Малиевецкий водопад, находится в селе Малиевцы Хмельницкой области на территории усадьбы Орловских. Усадьба была построена в 1788 году известным польским архитектором Доменико Мерлини в стиле французского классицизма. В основу строительства положены проекты резиденций времен французского короля Людовика XVI. Вокруг дворца был заложен большой ландшафтный парк, на территории до сих пор сохранились дворцовый ансамбль и водонапорная башня. Весь парк был покрыт дорожками в форме кленовых листьев, которые по крутым склонам вели к парковым прудам. К сожалению, большинство парковых украшений не дожили до наших дней, но сохранились мостик и два пруда, а также источник питьевой воды с барельефом льва и небольшим бассейном, причем фонтан в бассейне работает до сих пор. В парке насчитывается 84 вида деревьев, в том числе сосна веймутова, европейская и черная лиственницы, черный орех и лесные буки. Но наиболее приметной достопримечательностью усадебного комплекса является высокая скала святого Онуфрия с искусственным водопадом, который низвергается с высоты 18 метров. Здесь издавна, прямо под рукотворным водопадом, были обустроены несколько монашеских пещер. На скалу можно подняться по известняковым ступенькам, на ней установлен крест, а неподалеку находится источник, из которого питается сам водопад.
Из Каменец-Подольского по трассе Н03 до села Малиевцы.
Маршрут «Три каньона»: Буки, «БуГский Гард» и Гранитно-Степное ПобужьеХотите увидеть, как потоки весенней воды прорываются сквозь гранитные скалы каньонов, а также уникальные места, которые природа создала за миллионы лет до наших дней? А заодно побывать в лесу-лабиринте и подняться на Белые скалы. Тогда вам понравится трехдневный маршрут по трем самым живописным каньонам и вдоль скалистых отрогов Южного Буга Гранитно-степного Побужья.
Ближе всего к Киеву расположен каньон в селе Буки, Маньковского района Черкасской области. Река Горный Тикич прорезала путь в скалах, создав неповторимый пейзаж среди черкасских степей. Перед тем как попасть в гранитное русло каньона, река срывается с небольшой скалы, образуя шумный водопад Выр. Над водопадом возвышаются руины старой мельницы, а неподалеку находится еще одна местная достопримечательность — здание первой украинской гидроэлектростанции, построенной здесь еще в 1929 году.
Возьмите напрокат лодку — только так можно увидеть, как гранитные стены каньона, как колоссы, возвышаются над водой. Создается впечатление, будто кто-то вручную их высекал огромным молотом, хотя, конечно же, это дело рук природы. Либо можно без труда подняться на верхние смотровые площадки, чтобы увидеть каньон сверху, разглядывая причудливый маршрут реки, прорубившей себе дорогу в скалах.
Как добратьсяИз Киева по трассе Е95 до города Жашков, после еще около 30 км до села Буки, через населенные пункты Вороное и Червоный Кут.
Дальше путь лежит в сторону Николаевской области, к знаменитым гранитным берегам Южного Буга, возле села Мигия. С мая по октябрь тут проводят сплавы на рафтах — надувных плотах — по извилистым речным порогам. Но это не значит, что сюда приезжают только любители активного отдыха. Увидеть красивейшие скалы, бурный Южный Буг, который делает крутой поворот у порога Интеграл, побывать у старинной мельницы и переночевать в одном из кемпингов Мигии — эта романтика в окружении красивой природы стоит того, чтобы провести здесь один день с ночевкой. Кроме скал и Южного Буга не пропустите Радоновое озеро, которое образовалось на месте затопленного гранитного карьера. Глубина его достигает 40 метров, питается оно от нескольких источников. Именно поэтому вода в нем прозрачная — в солнечную погоду видно дно глубокого карьера. По утрам в сочетании с желтыми скалами вода становится ярко-голубого цвета.
Как добратьсяПо трассе Е95, поворот в Кривом Озере на трассу Р75 на Первомайск, далее по Р06 д Мигии — 360 км.
Следующая точка на маршруте расположена недалеко от Вознесенска Николаевской области в национальном парке «Бугский Гард». Именно здесь вдоль притоков Южного Буга — речек Арбузинка, Корабельная и Мертвовод — нависают скалы Арбузинского и Актовского каньонов. Большой Актовский каньон, расположенный на реке Мертвовод, в несколько раз превосходит размерами малый — Арбузинский. Красивейшие гранитные стены каньонов образовались более 4 млрд лет назад, а триста лет назад здесь было место встречи границ Турции, Запорожской Сечи и Речи Посполитой. Между каньонами есть даже свой Пуп Земли — на нем установлен флаг Украины. Отсюда открывается отличный вид на окрестные скалы и заповедное урочище — Трикратский лес. На самом деле это бывший дендрарий, который был заложен здесь еще в XVIII веке графом Виктором Скаржинским, известным меценатом и ботаником. В своем имении он пытался акклиматизировать деревья и кустарники различных пород, в том числе из Южной Америки и Западной Европы. Теперь это настоящий лес-лабиринт, в котором особое внимание привлекает Дуб Любви — громадное дерево, в основании похожее на сердце.
А в 10 км от Актовского каньона можно увидеть еще одно уникальное место — Белые скалы. Меловая выработка появилась на месте бывшего карьера, в котором добывали белую глину, став природной достопримечательностью. Своим составом и внешним видом Белые скалы внешне напоминают турецкий Памуккале, только они поменьше и здесь не бьют термальные источники.
Как добратьсяПо трассе Е95 до Демидовки, затем поворот на Е584 в сторону Южноукраинска, далее по дороге Р06 до Актово.
Маршрут «Места силы и природные чудеса вдоль Днепра»: Черкасская и Киевская областиЧтобы отлично провести выходные, можно не ехать далеко от Киева. Наш третий маршрут пролегает вдоль берегов Днепра и Каневского водохранилища. Вас ждут уникальные храмы на воде, таинственный полуостров Трахтемиров и спрятанное среди чащи озеро. А на обратной дороге можно заскочить в симпатичную ферму, чтобы провести весь день на пикнике и пообщаться со страусами.
Для начала предлагаем отправиться в городок Ржищев, расположенный к югу от Киева. Из Ржищева, наняв лодку, можно попасть к Спасо-Преображенской «затопленной» церкви. Когда-то на этом месте было село Гусинцы, которое было затоплено во время строительства Каневского водохранилища и сейчас находится под толщей воды. Храм и колокольня долгое время возвышались из воды, они уцелели благодаря тому, что расположены на небольшом холме. Церковь восстановили, теперь к ней ведет красивый мост и причаливают лодки с туристами. Лодку можно арендовать в Ржищеве, а заодно попросить лодочника причалить к «Лысой горе» — огромной песчаной дюне, с которой открывается красивейший вид на Днепр и окрестности.
Из Киева по трассе Р01 до Ржищева 85 км.
В следующей точке маршрута находится совершенно уникальное по красоте и энергетике место — полуостров Трахтемиров, на границе Киевской и Черкасской областей. Его называют сакральным сердцем Украины. Трахтемиров получил свое имя от одноименного села, которое возникло здесь благодаря тому, что в этом месте были два главных брода через Днепр. Видимо, отсюда и пошло толкование слова «трахтемиров» — «тракт мира», или «мирный путь».
Первые поселения появились здесь еще в VII–VI веке до нашей эры. Затем в XVII–XIX веках на этом месте располагалась казацкая столица Трахтемиров, в которой выбирали гетманов. На зимних квартирах жили казаки, стоял арсенал, госпиталь и даже монастырь, где доживали свой век старые и немощные казаки. Сейчас от былой казацкой столицы осталось только кладбище — все остальные строения были разрушены во время турецких войн. В 2000 году Трахтемиров стал национальным культурным заповедником, по которому можно перемещаться только пешком или на велосипедах.
Считается, что Трахтемировский полуостров — это место силы, которое обладает необычной энергетикой. На нем осталось множество исторических следов — это валы, курганы, памятки, указывающие на жизнедеятельность людей, которые жили задолго до нас на этой территории. Объясняется это тем, что Днепр в районе Трахтемирова делает крутой изгиб и своим течением закручивает огромные энергетические вихри, создавая мощный поток природной энергии. Побывайте в самых значимых местах полуострова: на гряде Маркова и у целебного источника, в урочище Монастырок и в гостях у так называемого Скифа — отшельника и хранителя этих мест.
Как добратьсяИз Киева по трассам H01 и Р10 ехать в село Великий Букрин Киевской области, туда ведет автомобильная дорога, но сам Трахтемиров фактически в Черкасской области.
В 20 км от Трахтемирова есть еще одно уникальное природное сокровище. Прямо к берегу Днепра примыкает озеро Бучак — Голубое озеро, которое является частью регионального ландшафтного парка. Вокруг озера расположены горы Лысуха, Бабина и Московка. При строительстве Каневского водохранилища здесь был создан искусственный котлован, который со временем заполнился водой. Природа постепенно скрыла следы цивилизационной деятельности человека, и теперь тут все заросло деревьями и травами. В озере водится рыба, а в округе живут дикие кабаны, волки, и поговаривают, что даже медведи. Эти места также считаются местами силы. По словам археологов, здесь были найдены стоянки первобытных людей и много находок трипольского периода. Из расположенного неподалеку колодца Рожены, по легенде, пили воду первые русские князья.
Как добратьсяОт Трахтемирова 20 км по трассе через Малый Букрин и Иваньков.
На ночевку можно остановиться в Каневе и утром обязательно подняться на Тарасову гору, чтобы увидеть, как у ее подножия разливается широкий Днепр. А дальше нас ждет посещение Кийловской Аскании — фермы, на которой проживают страусы, павлины, лошади, гуси, дикие утки, вьетнамские свинки, лебеди и пуховые куры. Такое название ферма получила из-за страусов, которых привезли из заповедника «Аскания-Нова». Фактически ферма — это мини-зверинец, в котором животные живут в больших вольерах и прекрасно себя чувствуют на просторной территории. Здесь можно не только наблюдать за животными, но и гладить их или брать на руки, а также кормить — в стоимость входит неограниченное количество специального корма. На ферме можно провести целый день, забронировав предварительно беседку с мангалом и дровами (450 грн), побывать на экскурсии (70 грн). Тут есть две небольшие детские площадки, волейбольная площадка и место для рыбалки — гости могут без ограничений перемещаться по всей территории фермы.
Как добратьсяСо стороны Канева по трассе Н08 — 130 км до села Кийлов. Из Киева по трассе Е40 и Т1016 — 60 км.
Подпишитесь на ежедневную еmail-рассылку от создателей газеты номер 1 в Украине. Каждый вечер в вашей почте самое важное, эксклюзивное и полезное. Подписаться.
Ионикос — Докса Драмас прогноз и ставки от специалиста на футбол 10.04.21
br>
Так как до 10-го апреля еще есть время, то футболисты клубов Ионикос и Докса Драмас успеют восстановить силы, чтобы подойти в оптимальной форме к очному противостоянию. На футбольном поле игроки команд появятся в 14:45 по московскому времени. Эта встреча для соперников будет уже третьей только в рамках этого сезона, и в предыдущих двух команды обменялись домашними победами. Если же брать всю статистику данного противостояния, то в ней лучшие результаты имеет Ионикос.
Команда Ионикос и команда Докса Драмас, судя из стартовой заявки, выйдут на поле сильнейшими составами. Напомним, что ранее в СМИ говорилось о том, что в составе хозяев поля будут отсутствовать несколько ведущих футболистов. Эта информация существенным образом повлияла на котировки букмекеров, выставленных на этот матч. Наши прогнозисты считали, что оснований для такого завышенного коэффициента на победу команды Ионикос в этом матче нет, так как отсутствие двух лидеров для такого клуба, каким является команда Ионикос – не критично, так как глубина скамейки позволяет провести ротацию состава, без существенной потери качества игры. Тем более что сейчас стало известно о том, что лидеры все же сыграют. Мы думаем, что команда Ионикос сегодня добьется уверенной победы над своими соперниками, так что, рекомендуем играть не только победу хозяев поля в этом матче, но и делать ставки на фору команды Ионикос. Учитывая, что команды будут действовать основными составами, нам также кажутся вполне играбельными ставки на общий тотал больше в матче, так как хозяева вряд ли забьют менее двух голов, да и гостям вполне по силам наиграть на забитый мяч. Также здесь можно рассмотреть ставку на индивидуальный тотал голов команды Ионикос на больше, исходя из того, что хозяева поля очень активно действуют в родных стенах. К примеру, в прошлом сезоне команда Ионикос только в трех домашних матчах забила менее двух голов.
СТАВКИ/КОЭФФИЦИЕНТЫ БУКМЕКЕРСКИХ КОНТОР НА МАТЧ Ионикос — Докса Драмас:
Так как футбольный клуб Ионикос считается фаворитом данной встречи, то на его победу букмекеры дают невысокий коэффициент 1.27. Намного выше котировка стоит на победу ФК Докса Драмас — 10.5, а также хороший коэффициент стоит на ничью — 5.05.
История личных встреч
Большой выбор ставок, предложенный букмекерами на матч команды Ионикос и команды Докса Драмас, можно объяснить тем, что обе команды относят к элите современного футбола, и их противостояние – это матч, который, несомненно, привлечет внимание любителей футбола во всем мире. Команды тщательно готовятся к этому матчу, так как победа в нем позволит не только набрать три очка, необходимые для турнирной таблицы, но эта победа будет очень сильным моральным подспорьем, ведь победа, добытая в матчах с прямым конкурентом в борьбе за чемпионство – лучшее, о чем можно только мечтать. В плане кадровых потерь команды подходят к предстоящему матчу в отличной форме. Все ключевые футболисты готовы помочь клубу со стартовых минут матча, а наставники смогли приобрести на трансферном рынке еще ряд перспективных футболистов, которые могут усилить игру клубов со скамейки. Так что, с исполнителями у команды Ионикос и команды Докса Драмас – полный порядок. Тактику наставники тоже не меняли по сравнению с прошлым сезоном. Действительно, зачем ломать и менять то, что приносит результат. Напомним, что оба клуба играют в атакующий футбол, причем, можно сказать, что даже в остро атакующий, когда вся команда может угрожать воротам соперника при быстром переходе из обороны в атаку, либо при стандартах. Это означает, что сегодня команды не будут отсиживаться в обороне, а постараются создать максимум голевых моментов.
Поклонники футбола уже давно ожидают, когда 10-го апреля на поле выйдут команды Ионикос и Докса Драмас. По московскому времени прямая трансляция данного поединка пройдет в 14:45. Интерес к данной встрече возникает еще и потому, что уже два года команды между собой не играли. А в последнем очном противостоянии команды разошлись миром, завершив встречу со счетом 3-3.
Предматчевый анализ и прогнозы букмекеров
Чемпионат находится в самом разгаре, поэтому футболистам команды Ионикос и команды Докса Драмас нельзя расслабляться, ведь борьба за высокие места в чемпионате – это необходимость демонстрировать футбол высшего качества в каждом матче, особенно в матчах с прямыми конкурентами. А в том, что именно команда Ионикос и команда Докса Драмас будут конкурировать между собой за высокие места в чемпионате, у экспертов нашего ресурса нет никаких сомнений. Команды отлично укомплектованы на нынешний сезон, причем, отличительной чертой обеих команд является наличие хорошей скамейки запасных, футболисты которой могут в любой момент усилить игру команд. Вообще, позволить игрокам такого уровня выходить на замену могут далеко не каждые футбольные команды. Однако, к слову, менеджеры обеих команд постоянно экспериментируют с составом, предоставляя игровое время всем футболистам. Но, по мнению экспертов нашего ресурса, в сегодняшнем матче экспериментов не будет. Обеим командам необходим результат, поэтому менеджеры постараются задействовать всех ведущих футболистов, использовав максимально неудобную тактику для соперника. Отличительными качеством команды Ионикос и команды Докса Драмас является атакующий стиль игры, так как львиная доля выигрышных матчей команд приходиться на активные действия у ворот соперника. Учитывая, что сегодняшние соперники умеют активно действовать не только в атаке, но и в обороне, наши эксперты полагают, что матч будет очень интересным, а прогнозы от наших экспертов позволят сделать просмотр этого противостояния еще более зрелищным.
Очень много комплиментов в нынешнем сезоне звучит в адрес футболистов команды Ионикос. Клуб действительно демонстрирует отличный футбол, добиваясь уверенных побед над своими соперниками. И это при том, что еще в прошлом сезоне клуб не показывал таких ошеломляющих результатов. Однако серия громких побед сделала свое дело, и в матче с футболистами команды Докса Драмас хозяева поля идут фаворитами. По мнению экспертов нашего ресурса, такие котировки на победу команды Ионикос в этом матче – не соответствуют действительности. Гости, пусть и расположились ниже своих соперников в турнирной таблице, команда, которая является крепким середняком с сыгранным составом. Возможно, что клуб и не хватает звезд с неба, однако футболисты команды Докса Драмас способны упереться в каждом матче. Исходя из этого, наши эксперты полагают, что коэффициент, выставленный на победу хозяев поля – несколько завышен, поэтому мы рекомендуем делать ставки на фору команды Докса Драмас, а более рисковые бетторы могут поставить на то, что гости не проиграют в этом матче. Общий тотал голов видится нам на меньше, так как команда Докса Драмас редко позволяет своим соперникам забивать много голов, при этом, сами гости тоже не отличаются результативностью. Хозяева поля, пусть и будут действовать первым номером в этом матче, тоже будут играть с оглядкой на оборону, отсюда и получается, что ставка на тотал меньше в этом матче выглядит вполне надежной. Общий тотал желтых карточек и нарушений правил, мы рассматриваем на больше, так как игра будет преимущественно проходить в центре поля, поэтому оба клуба будут во всю использовать тактику мелкого фола для срыва атак соперника. Отсюда и общий тотал угловых тоже стоит играть на меньше, так как игра через центр не предполагает большого количества угловых в матче.
Ионикос
В последние годы футбольный клуб Ионикос постоянно входит в тройку сильнейших в чемпионате, так что регулярно принимает участие в Лиге Чемпионов. Но, как хозяева не стараются, все равно не могут стать чемпионами, ведь начинают борьбу за титул, но затем отставание от лидера только увеличивается. В данный момент оно достигло уже девяти очков, так что хоть футбольный клуб Ионикос и идет вторым в чемпионате, но вернуться в борьбу за золотые медали будет не так просто. На своем поле команда показывает в этом сезоне уверенную игру, так что было только два поражения дома, и на родном стадионе футболисты клуба Ионикос забивают в три раза больше мячей, чем пропускают. Сейчас хозяева выдают серию из семи побед подряд, но она никого не удивляет, так как команда играла по очень легкому календарю, где было много предсказуемых результатов. В этом поединке хозяевам не помогут левый защитник, а также центральный и опорный полузащитники. Под вопросом выход на поле правого нападающего.
Докса Драмас
После того, как в футбольном клубе Докса Драмас два года назад поменялся главный тренер, был небольшой спад в игре, но постепенно команда начала показывать еще даже лучшие результаты при новом наставнике. В этом сезоне гости занимают шестую строчку в чемпионате, претендуя на путевку в еврокубки. Но, для этого нужно выиграть борьбу, в которую включилось еще четыре команды. Футболисты клуба Докса Драмас показывают очень хорошую игру дома, а вот на выезде команда играет исключительно от обороны, из-за чего в гостях было тринадцать ничейных результатов в восемнадцати матчах. При этом, ФК Докса Драмас проиграл на выезде только однажды, чем не могут похвастаться даже лидеры чемпионата. Уже семь туров гости не проигрывают, одержав три победы и четыре раза сыграв вничью. Команда имеет одну из лучших защит в чемпионате, ведь входит в тройку лидеров по количеству пропущенных мячей. У гостей нет длинной скамейки запасных, но в данный момент у команды и нет серьезных кадровых проблем, ведь травмирован только правый полузащитник, который уже больше месяца пребывает в лазарете.
Интересные факты перед матчем Ионикос – Докса Драмас
Эксперты нашего ресурса в матче команды Ионикос и команды Докса Драмас видят фаворитами хозяев поля. Вообще, если рассматривать успехи клубов в нынешнем сезоне, то это противостояние равных соперников. В принципе, букмекеры и предлагают практически равные коэффициенты на победы команд в этом матче. Однако, при тщательном изучении статистических и прочих данных эксперты нашего ресурса смогли найти несколько факторов, которые говорят о том, что в этом матче команда Ионикос должна побеждать своих соперников. Календарь у хозяев поля более щадящий, чем у команды Докса Драмас. При этом, у хозяев поля в строю все ключевые футболисты, в отличии от гостей, которые вынуждены использовать футболистов резерва, не имеющих достаточного опыта выступлений в таких матчах. Да и победа футболистам команды Ионикос в этом матче гораздо нужнее, чем их соперникам. Так что, все факторы говорят о том, что сегодня стоит играть победу команды Ионикос, и именно это советуют делать эксперты нашего ресурса. Относительно общего тотала забитых голов в этом матче. Оба клуба играют в атакующий футбол, а учитывая проблемы с составом у гостей, мы не видим причин, чтобы команда Ионикос не забила своим соперникам несколько голов. Так что, неплохой ставкой в этом матче является еще и ставка на общий тотал забитых голов на больше. Относительно нарушений правил и желтых карточек, то футболисты обеих команд играют грубо, поэтому предложенный букмекерами тотал должны пробивать. Угловые обе команды подают, причем, в личных встречах, эти клубы всегда пробивают заявленный тотал, поэтому мы не видим причин для того, чтобы и сегодня команды не подали много угловых.
Матч выиграет Ионикос — 1.27, победителей нет — 5.05, матч выиграет Докса Драмас — 10.5.
Команда Ионикос и команда Докса Драмас, которые примут участие в матче в ближайшем туре, выйдут на поле сильнейшими составами. Об этом стало известно со слов менеджеров команд, которые подтвердили, что у обеих команд еще остаются шансы на то, чтобы занять более высокие места в чемпионате, поэтому каждая игра – это отличный шанс улучшить свои турнирные позиции. Вообще, на старте сезона оба клуба являлись одними из претендентов на попадание в престижные клубные турниры. Однако по ряду причин эти команды забуксовали на старте чемпионата, поэтому теперь они вынуждены стараться наверстать упущенное в концовке. Букмекеры выкатили примерное равные коэффициенты на победу команды Ионикос и команды Докса Драмас в этом матче, наши эксперты придерживаются такого же мнения, так как мы полагаем, что обеим командам необходим еще сезон для того чтобы закончить перестройку, и начать двигаться к намеченным целям. В связи с этим, мы полагаем, что участие в клубных турнирах в будущем году не пойдет на пользу ни одной, ни другой команде. Исходя из этого, наиболее вероятным исходом противостояния мы считаем ничью, на что и предлагаем делать ставки. Общий тотал голов матча мы рассматриваем на меньше. Так как оба соперника будут выступать сильнейшими составами, то они будут максимально собранно действовать в защите, да и сам матч будет проходить, скорее всего, в неспешном темпе, что исключает большое количество забитых голов. Общий тотал угловых в матче мы тоже рекомендуем играть на меньше, так как оба клуба атакуют через центр, практически не используя фланги. А вот нарушений и предупреждений в матче ожидается много, поэтому общий тотал этих статистических параметров мы рекомендуем заигрывать на больше.
«Ионикос»
Нельзя сказать, что футбольный клуб Ионикос плохо выступает в этом сезоне, но все же если прошлые два года команда финишировала второй в чемпионате, то сейчас занимает лишь пятую строчку в таблице. Побороться за вторую строчку не так просто из-за отставания в восемь очков, но взять бронзу национального первенства намного реальнее, так как для этого необходимо сократить отрыв всего в два очка. В этом сезоне футбольный клуб Ионикос стал слабее играть на выезде, но в родных стенах по-прежнему демонстрирует сильную игру, проиграв лишь один матч, но команде, также ведущей борьбу за еврокубки. У хозяев сильное нападение, так как в составе ФК Ионикос играет лучший нападающий чемпионата, а также имеется надежная оборона, но все же не так просто подняться хотя бы на несколько строчек. Хозяева не проигрывают на протяжении семи туров, в которых было пять побед и два ничейных результата. В лазарете ФК Ионикос находятся резервный голкипер и основной левый полузащитник.
Главный тренер футбольного клуба Докса Драмас выполнил задачу руководства, за один сезон вернув команду в высший дивизион, но обещания перед наставником президент не сдержал, так как в межсезонье не состоялось ни одного значительного трансфера, способного серьезно усилить состав. Так что, вместо того, чтобы включаться в борьбу за еврокубки, гости в этом сезоне постоянно обитают в нижней части турнирной таблицы, то приближаясь, то отдаляясь от зоны вылета. Сейчас футбольный клуб Докса Драмас имеет преимущество над аутсайдерами только в два очка, так что очень важно не потерять стабильность, так как даже небольшой игровой кризис может переместить команду в опасную зону. На данный момент гости демонстрируют неплохую форму, ведь в последних шести турах было лишь одно поражение, да и то в гостях у лидера чемпионата. Левые защитник и полузащитник не смогут в этой игре помочь команде, так что гости будут испытывать проблемы на этом фланге.
Статистика и личные встречи
Современные букмекерские конторы предлагают любителям ставок не только ставки до начала игры. С ростом популярности букмекерских контор и увеличения их количества, букмекеры постоянно находятся в поиске и реализации новых предложений для бетторов. Одним из таких предложений стало введение возможности делать ставки на статистику футбольных матчей по ходу игры. Эксперты нашего портала уверены, что такой подход позволит бетторам зарабатывать еще больше денег, так как букмекеры в лайв-ставках на статистику предлагают коэффициенты и события, исходя из текущего счета матча, однако действительность такова, что имея на руках тщательный разбор футбольного матча с учетом всех статистических особенностей игры, можно отлично заработать на ставках в букмекерских конторах. Этим мы и предлагаем заняться. В принципе, прогнозировать можно любой футбольный матч любого чемпионата. Наше внимание привлек матч команды Ионикос и команды Докса Драмас – футбольных клубов, которые сейчас ведут борьбу за верхние строчки чемпионатов. Это означает, что сама игра будет бескомпромиссной, оба клуба будут играть только на победу, не пренебрегая грубыми приемами в отношении своих соперников. А тот факт, что команда Ионикос и команда Докса Драмас активно используют фланги во время атак, тоже нам на руку, так как это означает, что в матче стоит ждать большого количества угловых. В общем, это лишь небольшой пример разбора футбольного матча. Больше информации и больше прогнозов можно найти ниже. Всем удачных ставок и интересного футбола.
Ионикос — Докса Драмас. Прогноз на футбол (10.04.21)
Для наших экспертов оказалось несколько необычной линия, которую мы увидели на матч команды Ионикос и команды Докса Драмас. Наши эксперты ожидали увидеть фаворитами матча хозяев поля, так как команда Ионикос остро нуждается в очках, так как ведет борьбу за верхние строчки турнирной таблицы. А вот футболистам команды Докса Драмас очки практически не нужны, так как, даже при самых радужных раскладах, гости все равно покинут высший дивизион чемпионата из-за финансовых проблем. Исходя из этого, фаворита этого противостояния очевиден, однако, видимо букмекеры не полностью владеют информацией, если предлагают подобные коэффициенты. Мы рекомендуем в этом матче делать ставки не только на победу хозяев поля, но и на то, что команда Ионикос пробьет фору, заявленную букмекерами. Общий тотал голов в матче мы рассматриваем на больше, так как хозяева поля активно играют на своем стадионе, предпочитая действовать первым номером и держать ворота соперников в напряжении. Да и гости могут отвечать результативно, поэтому общий тотал в матче мы рекомендуем играть на больше. Нарушений и желтых карточек мы видим много, так как между собой эти команды всегда играют грубо, нередко получают и красные карточки. Но сегодня мы ограничимся только ставкой на тотал больше желтых карточек и фолов. Угловые в нынешнем сезоне команда Ионикос и команда Докса Драмас практически не подают. Несмотря на то, что букмекеры предложили правильный тотал угловых в своих линиях, наши эксперты все равно рекомендуют играть его на меньше.
Наши эксперты всегда стараются предложить наиболее интересные ставки. Сегодня мы решили обратить внимание бетторов на противостояние команды Ионикос и команды Докса Драмас. Изюминка этого противостояния заключается в том, что у обеих команд отличные шансы для того чтобы побороться за чемпионство. Однако для этого необходимо продемонстрировать отличный футбол сегодня. Весь интерес СМИ и прочих новостных ресурсов направлен на этот матч, о нем много пишут и говорят, эксперты из всех стран делают свои прогнозы. Конечно, наши эксперты не могли остаться в стороне от этого противостояния, мы тщательно проанализировать матч команды Ионикос и команды Докса Драмас, что позволило нам найти и выбрать интересные ставки букмекеров. Надеемся, что наши описания и сами прогнозы, приведенные выше, окажется полезными. Всем удачных ставок и отличного футбольного вечера в исполнении лучших футбольных клубов.
В футбольной встрече Ионикос — Докса Драмас сыграют одни из самых грубых команд данного дивизиона, так что можно ожидать если не удаления, то большого количества желтых карточек, исходя из чего можно поставить на их тотал больше 6.5.
Ионикос – Докса Драмас: статистика и история личных встреч
Букмекеры не всегда правильно прогнозируют футбольные матчи. Точнее, линия на основные события футбольного матча в букмекерских конторах практически всегда правильная, однако букмекеры предлагают на футбол ряд дополнительных ставок, среди которых ставки на статистику. Видимо, в силу того, что основная масса бетторов предпочитает делать ставки на исход, букмекеры больше внимания уделяют составлению этой линии, мало обращая внимания на линию дополнительных ставок и статистики. По мнению наших экспертов, именно в этой части линии и скрыто все самое ценное. Как показывает практика, прогнозировать основные исходы футбольных матчей довольно непросто, даже если между собой встречаются лидер чемпионата и аутсайдер. Букмекеры грамотно закладывают в линию все статистические и другие факторы, сопутствующие этому матчу, поэтому ничего более-менее приличного с преимуществом в сторону бетторов, в такой линии уже не найти. Однако тщательный анализ помогает находить интересные ставки на статистику. Что позволяет нашим экспертам прогнозировать футбольные матчи, даже с участием грандов современного футбола. К примеру, тщательно изучив статистические данные матча, в котором сыграет команда Ионикос и команда Докса Драмас, мы смогли найти несколько интересных ставок, которые позволят наслаждаться просмотром футбола, и дадут возможность неплохо заработать. Мы думаем, что матч должен получиться интересным, поэтому рекомендуем не пропустить это противостояние.
Аль-Тае — Аль-Букаириах прогноз и ставки от специалиста на футбол 13.04.21
br>
Так как до 13-го апреля 2021 года еще есть время, то футболисты клубов Аль-Тае и Аль-Букаириах успеют восстановить силы, чтобы подойти в оптимальной форме к очному противостоянию. На футбольном поле игроки команд появятся в 22:05 по московскому времени. Эта встреча для соперников будет уже третьей только в рамках этого сезона, и в предыдущих двух команды обменялись домашними победами. Если же брать всю статистику данного противостояния, то в ней лучшие результаты имеет Аль-Тае.
Букмекеры предложили большой выбор ставок на футбольный матч, в котором соперниками будут команда Аль-Тае и команда Аль-Букаириах. Эти клубы давно ведут непримиримую борьбу в чемпионате, а в последние годы их противостояние вышло на новый уровень, так как сейчас эти команды одни из основных претендентов на борьбу за золотые медали футбольного первенства своей страны. Так что нас ждет горячее противостояние, в котором нашим прогнозистам наиболее вероятной ставкой видится ставка на тотал больше желтых карточек. Статистика показывает, что в матчах между собой соперники всегда действуют очень грубо, что будет способствовать проходу ставки. Конечно, команда Аль-Тае на порядок сильнее своих соперников, однако, на наш взгляд, букмекеры несколько занизили коэффициент на победу хозяев поля. И мы предлагаем здесь заиграть ставку на фору гостей. Вряд ли у команды Аль-Тае сейчас все настолько хорошо, чтобы хозяева смогли обыграть своих соперников с преимуществом в несколько голов. Да и команда Аль-Букаириах уже далеко не такие мальчики для битья. Нет сомнений в том, что матч будет результативным, в составах обеих команд достаточно футболистов, которые умеют реализовывать голевые моменты. Пробитию тотала также будет способствовать то, что оба клуба действуют в атакующем стиле, поэтому ставка на тотал больше в этом матче выглядит вполне оправданным выбором.
СТАВКИ/КОЭФФИЦИЕНТЫ БУКМЕКЕРСКИХ КОНТОР НА МАТЧ Аль-Тае — Аль-Букаириах:
Так как футбольный клуб Аль-Тае считается фаворитом данной встречи, то на его победу букмекеры дают невысокий коэффициент 1.464. Намного выше котировка стоит на победу ФК Аль-Букаириах — 6, а также хороший коэффициент стоит на ничью — 3.96.
История личных встреч
Матч команды Аль-Тае и команды Аль-Букаириах наши прогнозисты никак не могли оставить без внимания. И дело здесь не только в том, что он будет первым интересным футбольным противостоянием нынешнего сезона. У команд в прошлом сезоне сложились непростые взаимоотношения, так как в одном из матчей неправильное судейское решение привело к довольно драматичным последствиям. Сразу несколько футболистов в составах команд были удалены с поля за грубые нарушения и неспортивное поведение. В СМИ этот инцидент освещался, а затем было сказано, что футболисты помирились. Конечно, на публике оно может быть и так, но вряд ли инцидент можно считать полностью исчерпанным, так что, мы ждем горячего противостояния, тем более что матч будет обслуживать строгий рефери, который не скупится на предупреждения. Теперь о самой игре. Если сравнивать с прошлым сезоном, то существенных кадровых потерь клубы не понесли: да, некоторые футболисты ушли в другие клубы, но на их место пришли другие игроки. Поэтому тренерам не понадобилось менять тактическую схему игры команд, перестраивая ее под конкретного футболиста или группу футболистов. Напомним, что в прошлом сезоне команды действовали активно, то есть, пытались обострять ситуацию, а не ждали своего шанса, ориентируясь на контратаки. Чего-то подобного мы ждем в этом матче, тем более что все футболисты соскучились по игре, и будут стараться максимально проявить себя на поле.
Футбольный поединок Аль-Тае — Аль-Букаириах был перенесен на 13-го апреля 2021 года, так как он должен был состояться еще два месяца назад, но тогда арбитр отменил игру из-за сильного дождя. Теперь же футболисты выйдут на поле в 22:05 по московскому времени, и станет ясно, какая команда все же сильнее. Вначале сезона Аль-Тае и Аль-Букаириах играли между собой, и тогда на табло была зафиксирована ничья со счетом 2-2, хотя хозяева поля вели в два мяча после завершения первого тайма.
Предматчевый анализ и прогнозы букмекеров
Чемпионат находится в самом разгаре, поэтому футболистам команды Аль-Тае и команды Аль-Букаириах нельзя расслабляться, ведь борьба за высокие места в чемпионате – это необходимость демонстрировать футбол высшего качества в каждом матче, особенно в матчах с прямыми конкурентами. А в том, что именно команда Аль-Тае и команда Аль-Букаириах будут конкурировать между собой за высокие места в чемпионате, у экспертов нашего ресурса нет никаких сомнений. Команды отлично укомплектованы на нынешний сезон, причем, отличительной чертой обеих команд является наличие хорошей скамейки запасных, футболисты которой могут в любой момент усилить игру команд. Вообще, позволить игрокам такого уровня выходить на замену могут далеко не каждые футбольные команды. Однако, к слову, менеджеры обеих команд постоянно экспериментируют с составом, предоставляя игровое время всем футболистам. Но, по мнению экспертов нашего ресурса, в сегодняшнем матче экспериментов не будет. Обеим командам необходим результат, поэтому менеджеры постараются задействовать всех ведущих футболистов, использовав максимально неудобную тактику для соперника. Отличительными качеством команды Аль-Тае и команды Аль-Букаириах является атакующий стиль игры, так как львиная доля выигрышных матчей команд приходиться на активные действия у ворот соперника. Учитывая, что сегодняшние соперники умеют активно действовать не только в атаке, но и в обороне, наши эксперты полагают, что матч будет очень интересным, а прогнозы от наших экспертов позволят сделать просмотр этого противостояния еще более зрелищным.
Для многих любителей футбола противостояние команды Аль-Тае и команды Аль-Букаириах – это отличная возможность не только насладиться хорошим матчем, но и выиграть в букмекерских конторах. И в этом свою помощь предлагают эксперты нашего ресурса. Хозяева поля сейчас попали в не совсем удачную полосу, которую необходимо прерывать. Однако команда Аль-Букаириах – не самый лучший соперник для того чтобы прервать полосу неудач. Гости – крепкий орешек, и даже учитывая тот факт, что в составе команды Аль-Букаириах не будет нескольких футболистов основы, которые выбыли из-за травм, пробить оборону гостей хозяевам поля будет очень и очень непросто. Поэтому, учитывая личные встречи, а также беря во внимание важность матча для обеих команд, наши эксперты пришли к мнению, что наиболее интересной ставкой в это противостоянии будет ставка на общий тотал забитых голов на меньше. Мы предполагаем, что игра будет преимущественно проходить в центре поля, следовательно, оба клуба будут активно использовать тактику мелкого фола, в связи с этим, общий тотал нарушений правил, а также общий тотал желтых карточек наши эксперты рекомендуют играть на больше. При этом, мы думаем, что в матче велика вероятность удаления игрока с поля, так как, если взглянуть на статистику противостояний этих клубов, удаления здесь довольно частое явление, а за предложенный букмекерами коэффициент – точно стоит рисковать. Относительно фаворита этого матча, то, мы полагаем, что хозяева поля вряд ли проиграют, так как сейчас им нужна победа как никогда, поэтому мы рекомендуем делать ставки с форой на футболистов команды Аль-Тае, а рисковые бетторы могут попробовать заиграть победу хозяев поля.
Аль-Тае
В прошлом сезоне футбольный клуб Аль-Тае неожиданно финишировал в зоне Лиги Чемпионов, но оказалось, что успехи команды были кратковременными. Это связано с тем, что руководство не захотело усиливать состав в преддверии более сложного сезона, а наоборот, отпустило некоторых ключевых игроков. В итоге, хозяева сейчас идут только восьмыми в турнирной таблице, и снова пробиться в Лигу Чемпионов вряд ли получится, так как от нее отставание составляет уже двенадцать очков. Для футбольного клуба Аль-Тае сейчас приоритетная задача хотя бы пробиться в Лигу Европы, от которой хозяева отстают только на два очка. Хотя дома команда играет лучше, чем в гостях, все равно нет уверенной игры в родных стенах, так что получилось выиграть менее половины домашних матчей. Если в прошлом месяце футбольный клуб Аль-Тае выиграл все четыре тура, то в этом месяце начался спад, ведь была только одна победа при двух поражениях. Дисквалификацию отбывает правый защитник, а травмированы в составе гостей левый и двое центральных полузащитников.
Аль-Букаириах
После того, как в футбольном клубе Аль-Букаириах два года назад поменялся главный тренер, был небольшой спад в игре, но постепенно команда начала показывать еще даже лучшие результаты при новом наставнике. В этом сезоне гости занимают шестую строчку в чемпионате, претендуя на путевку в еврокубки. Но, для этого нужно выиграть борьбу, в которую включилось еще четыре команды. Футболисты клуба Аль-Букаириах показывают очень хорошую игру дома, а вот на выезде команда играет исключительно от обороны, из-за чего в гостях было тринадцать ничейных результатов в восемнадцати матчах. При этом, ФК Аль-Букаириах проиграл на выезде только однажды, чем не могут похвастаться даже лидеры чемпионата. Уже семь туров гости не проигрывают, одержав три победы и четыре раза сыграв вничью. Команда имеет одну из лучших защит в чемпионате, ведь входит в тройку лидеров по количеству пропущенных мячей. У гостей нет длинной скамейки запасных, но в данный момент у команды и нет серьезных кадровых проблем, ведь травмирован только правый полузащитник, который уже больше месяца пребывает в лазарете.
Интересные факты перед матчем Аль-Тае – Аль-Букаириах
Матч команды Аль-Тае и команды Аль-Букаириах в текущем чемпионате не окажет серьезного значения на расположение команд в турнирной таблице. Оба клуба уже решили свои задачи в нынешнем сезоне. Хозяева поля и гости смогли сохранить прописку в чемпионате, а это означает, что и в следующем сезоне эти клубы будут выступать в элитном дивизионе. Исходя из этого, менеджеры обеих команд заявили о том, что в ближайших матчах планируют начать подготовку команд к новому сезону. Это означает, что футболисты резерва будут получать больше времени в официальных матчах. Естественно, резервисты захотят проявить себя, а так как результат матча не имеет особой роли для команды Аль-Тае и команды Аль-Букаириах, то, наиболее вероятной ставкой в этой игре наши эксперты видят ставку на тотал больше забитых мячей. Еще хотелось бы обратить внимание бетторов на такие ставки, как индивидуальный тотал забитых мячей каждой команды. В составе обеих команд действуют известные футболисты, поэтому клубам легко удастся забить по голу в ворота друг друга, поэтому ставка на обе команды забьют – да, тоже выглядит вполне уверенной. Отдельно хотелось бы сказать о ставках на тотал меньше фолов и желтых карточек. Команды вряд ли будут играть грубо, так как никто не захочет получить ненужную травму. А вот ставка на общий тотал угловых на больше – тоже выглядит весьма перспективно, так как свои атаки клубы развивают преимущественно через фланги, следовательно, угловых в матче будет много. Касаемо победителя матча, здесь, все же, мы отдадим предпочтение хозяевам поля, хотя, от ставок на исход рекомендуем воздержаться.
Матч выиграет Аль-Тае — 1.464, победителей нет — 3.96, матч выиграет Аль-Букаириах — 6.
Команда Аль-Тае и команда Аль-Букаириах, которые примут участие в матче в ближайшем туре, выйдут на поле сильнейшими составами. Об этом стало известно со слов менеджеров команд, которые подтвердили, что у обеих команд еще остаются шансы на то, чтобы занять более высокие места в чемпионате, поэтому каждая игра – это отличный шанс улучшить свои турнирные позиции. Вообще, на старте сезона оба клуба являлись одними из претендентов на попадание в престижные клубные турниры. Однако по ряду причин эти команды забуксовали на старте чемпионата, поэтому теперь они вынуждены стараться наверстать упущенное в концовке. Букмекеры выкатили примерное равные коэффициенты на победу команды Аль-Тае и команды Аль-Букаириах в этом матче, наши эксперты придерживаются такого же мнения, так как мы полагаем, что обеим командам необходим еще сезон для того чтобы закончить перестройку, и начать двигаться к намеченным целям. В связи с этим, мы полагаем, что участие в клубных турнирах в будущем году не пойдет на пользу ни одной, ни другой команде. Исходя из этого, наиболее вероятным исходом противостояния мы считаем ничью, на что и предлагаем делать ставки. Общий тотал голов матча мы рассматриваем на меньше. Так как оба соперника будут выступать сильнейшими составами, то они будут максимально собранно действовать в защите, да и сам матч будет проходить, скорее всего, в неспешном темпе, что исключает большое количество забитых голов. Общий тотал угловых в матче мы тоже рекомендуем играть на меньше, так как оба клуба атакуют через центр, практически не используя фланги. А вот нарушений и предупреждений в матче ожидается много, поэтому общий тотал этих статистических параметров мы рекомендуем заигрывать на больше.
«Аль-Тае»
Этот сезон футбольный клуб Аль-Тае проводит на неплохом уровне, ведь получилось пройти групповой этап Лиги Чемпионов, а сейчас команда имеет отличные шансы на то, чтобы снова квалифицироваться в самый престижный европейский турнир. Хозяева идут третьими в чемпионате, но на две последние путевки в Лигу Чемпионов претендует сразу четыре команды, так что до конца сезона предстоит еще упорная борьба. На своем поле Аль-Тае играет очень хорошо, так как поражений еще не было в этом сезоне, но ничьи все же случаются довольно часто. По количеству забитых мячей хозяева уступают только лидеру чемпионата, но оборона команды не самая надежная, что связано со слишком атакующим стилем футбольного клуба Аль-Тае. Сейчас хозяева находятся в хорошей форме, ведь в шести последних турах хоть и было неожиданное гостевое поражение от аутсайдера, но в остальных пяти матчах были уверенные победы. Левый вингер перебрал желтых карточек, так что вынужден пропустить этот поединок.
Этим летом футбольный клуб Аль-Букаириах провел громкую трансферную кампанию, так что болельщики ожидали высоких результатов. Но, сезон начался совершенно не так, как хотелось, ведь большинство матчей было проиграно, а главный тренер все равно пытался ввести в игру новичков, хотя они явно не улучшали игру команды. Такое упрямство стоило наставнику работы, так что быстро руководство гостей пригласило другого специалиста, обладающего не меньшим опытом в данной лиге. Он сразу же внес коррективы в состав, так что сейчас футбольный клуб Аль-Букаириах уже является крепким середняком и не позволяет легко отбирать у себя очки. Из зоны вылета гости поднялись на десятую строчку, так что от вылета уже себя обезопасили, но побороться за квалификацию в Лигу Европы не получится, ведь из-за слабого начала сезона отставание от лидеров очень большое. Кроме того, сейчас у команды снова начался спад, так как в последних шести турах получилось набрать только четыре очка. А ведь серьезных проблем с составом у гостей нет.
Статистика и личные встречи
Современные букмекерские конторы предлагают любителям ставок не только ставки до начала игры. С ростом популярности букмекерских контор и увеличения их количества, букмекеры постоянно находятся в поиске и реализации новых предложений для бетторов. Одним из таких предложений стало введение возможности делать ставки на статистику футбольных матчей по ходу игры. Эксперты нашего портала уверены, что такой подход позволит бетторам зарабатывать еще больше денег, так как букмекеры в лайв-ставках на статистику предлагают коэффициенты и события, исходя из текущего счета матча, однако действительность такова, что имея на руках тщательный разбор футбольного матча с учетом всех статистических особенностей игры, можно отлично заработать на ставках в букмекерских конторах. Этим мы и предлагаем заняться. В принципе, прогнозировать можно любой футбольный матч любого чемпионата. Наше внимание привлек матч команды Аль-Тае и команды Аль-Букаириах – футбольных клубов, которые сейчас ведут борьбу за верхние строчки чемпионатов. Это означает, что сама игра будет бескомпромиссной, оба клуба будут играть только на победу, не пренебрегая грубыми приемами в отношении своих соперников. А тот факт, что команда Аль-Тае и команда Аль-Букаириах активно используют фланги во время атак, тоже нам на руку, так как это означает, что в матче стоит ждать большого количества угловых. В общем, это лишь небольшой пример разбора футбольного матча. Больше информации и больше прогнозов можно найти ниже. Всем удачных ставок и интересного футбола.
Аль-Тае — Аль-Букаириах. Прогноз на футбол (13.04.21)
Перед футболистами команды Аль-Тае в матче с футболистами команды Аль-Букаириах стоит только одна задача – победить, так как хозяевам поля эта победа позволит заработать очки, которые существенно продвинут их в турнирной таблице. Напомним, что до конца чемпионата осталось довольно-таки приличное количество туров, однако мало кому из команд хочется оставлять решение своих задач в турнирной таблице на потом, полагаясь на слепой случай. Тем более, когда ты одной ногой стоишь в зоне вылета. Менеджеры и футболисты команды Аль-Тае в сегодняшнем матче рассчитывают только на победу, так как она позволит им выбрать из зоны вылета. Гости – команда Аль-Букаириах не самый серьезный соперник, ослабленный травмами и отсутствием ключевых футболистов. В принципе, наши эксперты солидарны здесь с букмекерами, которые видят хозяев поля фаворитами матча, мы тоже склоняемся к тому, что команда Аль-Тае победит в этом матче. Общий тотал голов в этом противостоянии мы рассматриваем на больше, так как оборона – не самые сильные стороны в игре обеих команд, так что, голов в матче будет много. Угловые, нарушения и желтые карточки – все эти статистические параметры мы тоже рассматриваем на больше, так как эмоции в этой игре будут на первом месте, а быстрые фланговые отрывы будут способствовать нарушениям, за которые футболисты будут получать предупреждения. Обилие атак и низкий уровень исполнителей приведет к большому количеству заблокированных ударов, что будет способствовать стандартам.
Наши эксперты всегда стараются предложить наиболее интересные ставки. Сегодня мы решили обратить внимание бетторов на противостояние команды Аль-Тае и команды Аль-Букаириах. Изюминка этого противостояния заключается в том, что у обеих команд отличные шансы для того чтобы побороться за чемпионство. Однако для этого необходимо продемонстрировать отличный футбол сегодня. Весь интерес СМИ и прочих новостных ресурсов направлен на этот матч, о нем много пишут и говорят, эксперты из всех стран делают свои прогнозы. Конечно, наши эксперты не могли остаться в стороне от этого противостояния, мы тщательно проанализировать матч команды Аль-Тае и команды Аль-Букаириах, что позволило нам найти и выбрать интересные ставки букмекеров. Надеемся, что наши описания и сами прогнозы, приведенные выше, окажется полезными. Всем удачных ставок и отличного футбольного вечера в исполнении лучших футбольных клубов.
Несмотря на то, что в футбольном матче Аль-Тае — Аль-Букаириах букмекеры на стороне гостей, футбольные прогнозисты не сомневаются в высокой мотивации хозяев, что позволяет сделать ставку на их победу с форой +1 гол.
Аль-Тае – Аль-Букаириах: статистика и история личных встреч
Наши эксперты всегда стараются выбирать наиболее интересные с точки зрения зрелищности футбольные матчи для прогнозирования. В ближайшее время состоится матч между двумя футбольными клубами, которые показывают прекрасные результаты в нынешнем сезоне. Команда Аль-Тае и команда Аль-Букаириах являются непримиримыми соперниками уже довольно длительное время. Вместе с этим, эти футбольные коллективы показывают просто потрясающий футбол в личных встречах. Матчи между этими футбольными клубами запоминаются надолго, так как футболисты играют с полной самоотдачей, старясь продемонстрировать максимум своих возможностей. Менеджеры команды тоже готовят сюрпризы друг другу, используя необычную тактику. В общем, на футбольном поле происходит настоящее шоу, от которого болельщики пребывают в неописуемом восторге. Чего-то подобного мы ждем и в этом матче. По словам менеджеров команд, все ключевые футболисты готовы принять участие в матче с первых минут встречи. Это означает, что сегодня болельщиков ждет непредсказуемая игра, так как лидеры команд могут придумать нестандартное решение в любой игровой ситуации. Наши эксперты приготовили прогнозы на этот матч, с ними можно детально ознакомиться ниже. Мы рекомендуем делать ставки на это противостояние не только до матча, но и во время игры, так как, возможно, букмекеры сделают неплохое предложение по высокому коэффициенту.
Используйте полный синтаксис запросов Lucene — Когнитивный поиск Azure
- 8 минут на чтение
В этой статье
При построении запросов для Когнитивного поиска Azure вы можете заменить стандартный анализатор простых запросов более мощным анализатором запросов Lucene для формулирования специализированных и расширенных выражений запросов.
Анализатор Lucene поддерживает сложные форматы запросов, такие как запросы с областью действия, нечеткий поиск, поиск с использованием инфиксных и суффиксных подстановочных знаков, поиск по близости, усиление терминов и поиск по регулярным выражениям. Дополнительная мощность связана с дополнительными требованиями к обработке, поэтому следует ожидать немного большего времени выполнения. В этой статье вы можете просмотреть примеры, демонстрирующие операции запроса на основе полного синтаксиса.
Примечание
Многие специализированные конструкции запросов, реализованные с помощью полного синтаксиса запросов Lucene, не анализируются по тексту, что может вызвать удивление, если вы ожидаете стемминга или лемматизации.Лексический анализ выполняется только для полных терминов (запрос термина или запрос фразы). Типы запросов с неполными терминами (запрос с префиксом, запрос с подстановочными знаками, запрос с регулярным выражением, нечеткий запрос) добавляются непосредственно в дерево запросов, минуя этап анализа. Единственное преобразование, выполняемое с частичными условиями запроса, — это нижний регистр.
Отели выборочный индекс
Следующие запросы основаны на индексе-образце-отелях, который можно создать, следуя инструкциям в этом кратком руководстве.
Примеры запросов сформулированы с использованием REST API и запросов POST.Вы можете вставить и запустить их в Postman или в Visual Studio Code с расширением Cognitive Search.
Заголовки запроса должны иметь следующие значения:
Ключ | Значение |
---|---|
Content-Type | приложение / json |
API-ключ | , либо запрос, либо ключ администратора |
Параметры URI должны включать конечную точку службы поиска с именем индекса, коллекциями документов, командой поиска и версией API, как показано в следующем примере:
https: // {{service-name}}.search.windows.net/indexes/hotels-sample-index/docs/search?api-version=2020-06-30
Тело запроса должно быть сформировано как действительный JSON:
{
"поиск": "*",
"queryType": "полный",
"select": "HotelId, HotelName, Category, Tags, Description",
"count": правда
}
«поиск», установленный на
*
, является неопределенным запросом, эквивалентным пустому или пустому поиску. Это не особенно полезно, но это самый простой поиск, который вы можете выполнить, и он показывает все доступные для извлечения поля в индексе со всеми значениями.«queryType», установленный в «full», вызывает полный анализатор запросов Lucene, и это требуется для этого синтаксиса.
«select», установленный в список полей, разделенных запятыми, используется для составления результатов поиска, включая только те поля, которые полезны в контексте результатов поиска.
«count» возвращает количество документов, соответствующих критериям поиска. В пустой строке поиска будут учитываться все документы в индексе (50 в случае hotels-sample-index).
Пример 1: Поиск по полю
Индивидуальная область поиска, встроенные поисковые выражения в определенное поле. В этом примере выполняется поиск названий отелей со словом «гостиница», но не «мотель». Вы можете указать несколько полей с помощью AND.
Когда вы используете этот синтаксис запроса, вы можете опустить параметр searchFields, если поля, которые вы хотите запросить, находятся в самом поисковом выражении. Если вы включаете searchFields в поиск с полями, fieldName: searchExpression
всегда имеет приоритет над searchFields.
POST / indexes / hotel-samples-index / docs / search? Api-version = 2020-06-30
{
"search": "HotelName: (отель НЕ мотель) И категория: 'Resort and Spa'",
"queryType": "полный",
"select": "Название отеля, Категория",
"count": правда
}
Ответ на этот запрос должен быть похож на следующий пример, отфильтрованный по «Resort and Spa», возвращающий отели, в названии которых есть «hotel» или «motel».
"@ odata.count": 4,
"значение": [
{
"@поиск.оценка »: 4.481559,
"HotelName": "Nova Hotel & Spa",
«Категория»: «Курорт и СПА»
},
{
"@ search.score": 2.4524608,
"HotelName": "King's Palace Hotel",
«Категория»: «Курорт и СПА»
},
{
"@ search.score": 2.3970203,
"HotelName": "Трехместный ландшафтный отель",
«Категория»: «Курорт и СПА»
},
{
"@ search.score": 2.2953436,
"HotelName": "Peaceful Market Hotel & Spa",
«Категория»: «Курорт и СПА»
}
]
Выражение поиска может быть отдельным термином или фразой или более сложным выражением в круглых скобках, необязательно с логическими операторами.Некоторые примеры включают следующее:
-
Название отеля: (отель НЕ мотель)
-
Адрес / StateProvince :( "WA" OR "CA")
-
Теги :( "бесплатный Wi-Fi" НЕ "бесплатная парковка") И "кофе в холле"
Не забудьте заключить фразу в кавычки, если вы хотите, чтобы обе строки оценивались как единое целое, как в этом случае поиск двух разных мест в поле Address / StateProvince. В зависимости от клиента вам может потребоваться экранировать ( \
) кавычки.
Поле, указанное в fieldName: searchExpression
, должно быть доступным для поиска полем. См. Создание индекса (REST API) для получения подробной информации о том, как атрибутируются определения полей.
Пример 2: Нечеткий поиск
Нечеткий поиск соответствует похожим словам, включая слова с ошибками. Чтобы выполнить нечеткий поиск, добавьте символ тильды ~
в конце одного слова с необязательным параметром, значением от 0 до 2, который указывает расстояние редактирования. Например, синий ~
или синий ~ 1
вернет синий, синий и клей.
POST / indexes / hotel-samples-index / docs / search? Api-version = 2020-06-30
{
"search": "Теги: conserge ~",
"queryType": "полный",
"select": "Название отеля, Категория, Теги",
"searchFields": "Название отеля, Категория, Теги",
"count": правда
}
Ответ на этот запрос разрешается как «консьерж» в соответствующих документах, обрезанных для краткости:
"@ odata.count": 12,
"значение": [
{
"@ search.score": 1.1832147,
"HotelName": "Мотель Secret Point",
«Категория»: «Бутик»,
«Теги»: [
"бассейн",
"кондиционирование воздуха",
"консьерж"
]
},
{
"@поиск.оценка »: 1.1819803,
"HotelName": "Мотель Twin Dome",
«Категория»: «Бутик»,
«Теги»: [
"бассейн",
"бесплатный вай-фай",
"консьерж"
]
},
{
"@ search.score": 1.1773309,
"HotelName": "Smile Hotel",
«Категория»: «Люкс»,
«Теги»: [
"Посмотреть",
"консьерж",
"прачечная"
]
},
Фразы не поддерживаются напрямую, но вы можете указать нечеткое совпадение для каждого термина фразы, состоящей из нескольких частей, например search = Tags: landy ~ AND sevic ~
.Это выражение запроса находит 15 совпадений по запросу «прачечная».
Примечание
Нечеткие запросы не анализируются. Типы запросов с неполными терминами (запрос с префиксом, запрос с подстановочными знаками, запрос с регулярным выражением, нечеткий запрос) добавляются непосредственно в дерево запросов, минуя этап анализа. Единственное преобразование, выполняемое с частичными условиями запроса, — это нижний регистр.
Пример 3: Поиск сближения
Поиск по близости находит в документе термины, которые находятся рядом друг с другом. Вставьте символ тильды «~» в конце фразы, за которым следует количество слов, образующих границу близости.
Этот запрос выполняет поиск терминов «гостиница» и «аэропорт» в пределах 5 слов друг от друга в документе. Кавычки экранированы ( \ "
), чтобы сохранить фразу:
POST / indexes / hotel-samples-index / docs / search? Api-version = 2020-06-30
{
"search": "Описание: \" гостиница аэропорт \ "~ 5",
"queryType": "полный",
"select": "Название отеля, описание",
"searchFields": "Название отеля, описание",
"count": правда
}
Ответ на этот запрос должен выглядеть примерно так:
"@odata.count »: 2, "значение": [ { "@ search.score": 0,6331726, "HotelName": "Мотель Trails End", "Описание": "Всего в 8 милях от центра города. Бар / ресторан на территории отеля, бесплатный горячий завтрак" шведский стол ", бесплатный беспроводной доступ в Интернет, отель для некурящих. Всего в 15 милях от аэропорта." }, { "@ search.score": 0.43032226, "HotelName": "Рыболовные домики в Кэтфиш-Крик", "Описание": "Совершенно новые матрасы и подушки. Бесплатный трансфер до аэропорта. Отличный отель для вашего бизнеса.
, символ с коэффициентом значимости (числом) в конце искомого слова. По умолчанию коэффициент усиления равен 1, и хотя он должен быть положительным, он может быть меньше 1 (например, 0,2). Повышение срока действия отличается от профилей оценки тем, что профили оценки усиливают определенные поля, а не конкретные термины.В этом запросе «до» найдите «доступ к пляжу» и обратите внимание на семь документов, соответствующих одному или обоим терминам.
POST / indexes / hotel-samples-index / docs / search? Api-version = 2020-06-30 { "search": "выход к пляжу", "queryType": "полный", "select": "Название отеля, описание, теги", "searchFields": "Название отеля, Описание, Теги", "count": правда }
Фактически, есть только один документ, который соответствует "доступу", и, поскольку это единственное соответствие, его размещение находится на высоком уровне (вторая позиция), даже если в документе отсутствует термин "пляж".
"@ odata.count": 7, "значение": [ { "@ search.score": 2.2723424, "HotelName": "Nova Hotel & Spa", "Описание": "1 миля от аэропорта. Бесплатный Wi-Fi, открытый бассейн, бесплатный трансфер до аэропорта, в 6 милях от пляжа и в 10 милях от центра города". }, { "@ search.score": 1.5507699, "HotelName": "Old Carrabelle Hotel", "Описание": "Просторные номера, очаровательные апартаменты и резиденции, бассейн на крыше, пеший доступ к магазинам, ресторанам, развлечениям и центру города." }, { "@ search.score": 1.5358944, "HotelName": "Whitefish Lodge & Suites", "Описание": "Расположен в самом сердце леса. Наслаждайтесь теплой погодой, услугами пляжного клуба, природными горячими источниками, трансфером до аэропорта". }, { "@ search.score": 1.3433652, "HotelName": "Мотель Ocean Air", "Описание": "Отель на берегу океана с видом на пляж предлагает номера с отдельными балконами, а также 2 крытых и открытых бассейна. Различные магазины и художественные развлечения находятся на променаде, в нескольких шагах от отеля.2
как% 5E2
.После усиления термина «пляж» матч на Old Carrabelle Hotel опустился на шестое место.
Пример 5: Регулярное выражение
Поиск по регулярному выражению находит совпадение на основе содержимого между косой чертой «/», как описано в классе RegExp.
POST / indexes / hotel-samples-index / docs / search? Api-version = 2020-06-30 { "search": "HotelName: / (Mo | Ho) tel /", "queryType": "полный", "select": "HotelName", "count": правда }
Ответ на этот запрос должен выглядеть примерно так:
"@odata.count »: 22, "значение": [ { "@ search.score": 1.0, "HotelName": "Days Hotel" }, { "@ search.score": 1.0, "HotelName": "Трехместный ландшафтный отель" }, { "@ search.score": 1.0, "HotelName": "Smile Hotel" }, { "@ search.score": 1.0, "HotelName": "Pelham Hotel" }, { "@ search.score": 1.0, "HotelName": "Sublime Cliff Hotel" }, { "@поиск.оценка »: 1.0, "HotelName": "Мотель Twin Dome" }, { "@ search.score": 1.0, "HotelName": "Nova Hotel & Spa" }, { "@ search.score": 1.0, "HotelName": "Отель Скарлет-Харбор" },
Примечание
Запросы Regex не анализируются. Единственное преобразование, выполняемое с частичными условиями запроса, - это нижний регистр.
Пример 6: Поиск по шаблону
Вы можете использовать общепризнанный синтаксис для поиска по нескольким (
*
) или одиночным (?
) символам с подстановочными знаками.Обратите внимание, что парсер запросов Lucene поддерживает использование этих символов с одним термином, а не с фразой.В этом запросе найдите названия отелей, содержащие префикс «sc». Нельзя использовать
*
или?
символ в качестве первого символа поиска.POST / indexes / hotel-samples-index / docs / search? Api-version = 2020-06-30 { "search": "HotelName: sc *", "queryType": "полный", "select": "HotelName", "count": правда }
Ответ на этот запрос должен выглядеть примерно так:
"@odata.count »: 2, "значение": [ { "@ search.score": 1.0, "HotelName": "Отель Скарлет-Харбор" }, { "@ search.score": 1.0, "HotelName": "Scottish Inn" } ]
Примечание
Запросы с подстановочными знаками не анализируются. Единственное преобразование, выполняемое с частичными условиями запроса, - это нижний регистр.
Следующие шаги
Попробуйте указать запросы в коде. По следующим ссылкам объясняется, как настроить поисковые запросы с помощью пакетов SDK для Azure.
Дополнительный справочник по синтаксису, архитектуре запросов и примеры можно найти по следующим ссылкам:
Сквозной анализ тегов на основе графа с нейронными сетями
Этот s'intéresse aux formismes qui permettent de représenter mathématiquement non seulement le sens de phrases, indépendantes mais aussi de textes entiers, encluant les diff liens de textes entiers фразы qui les composent entretiennent les unes avec les autres. Ces liens de sens - дискурсивные отношения - sont divers; nous Trouvons notamment des temporelles, causales et contrastives.Nous ne nous posons pas seulement la question du sens et de sa représentation, mais aussi celle de la détermination algorithmique de cette représentation à parti des séquences de mots qui composent les énoncés. Nous nous situons donc à l'interface de trois традиций: l'analyse discursive, la semantique formelle et la linguistique computationnelle. Plupart de travaux formels portant sur le discours ne prêtent que peu d'attention aux verbes de dire (утверждающий, ужасный, и т. д.) et d'attitude propositionnelle (penser, croire и т. д.)). Tous ces verbes, que nous regroupons sous l’abréviation «VAP», ont en commun d’exprimer l’attitude ou la position d’une personne sur une proposition donnée. Они не используют fréquemment и вводят nombreuses subtilités échappant de fait auxthéories actuelles. Это основной объективный принцип меттра в журнале принципов грамматики, который формирует совместимость с анализом дискурсов и пренант в рамках VAP. Nous commençons donc par présenter de nombreuses données linguistiques иллюстрируют дискурсивные взаимодействия между VAP и отношениями.Il est souvent considéré que les connecteurs adverbiaux (ensuite, par instance, и т. Д.) Sont anaphoriques. Cependant, nous pouvons nous demander si, en pratique, un système de linguistique computationnelle ne peut pas gérer cette catégorie speculière d'anaphore Com s'il s'il s'il s'il s'agissait d'un type de dependance structurelle, étendant d'une specific manière la syntaxe -дела де ла фраза. C’est ce que nous nous offer de faire à l’aide du formisme D-STAG. Une telle Approche, bien qu’ayant un specific nombre de propriétés intéressantes dans le cadre de l’analyse automatique du discours, fait peser un poids important sur la syntaxe, et nous discutons alors les трудные qu’elle soulève.Cela nous amène à développer une Approche anaphorique, c’est-à-dire dans laquelle les arguments des discursives ne sont plus determinés уникальность в соответствии с грамматической структурой анонсов. Ce sont les mêmes outils conceptuels que nous utilizations pour rendre compte de l'anaphoricité des connecteurs adverbiaux, des structure discursives non arborées (Observées avec tout type de Connecteurs), mais ausside l'usage évidentiel des VAP. d'anaphore, nous voulons l'intégrer explicitement dans le formatical grammatical, en spécifiant quand sont exécutées les résolutions d'anaphore et avec quelles information en Entrée.Это возможно с продолжением семантического периода, когда оно используется в сочетании с семантическим événementielle. Les événements sont souvent invoqués pour exprimer la sémantique des Relations notamment causales ou temporelles, mais posent aussi un some nombre de questions, liées aux schémas logiques d'inférence qu'autorisent les énoncés linguistiques prégés de la de la аргументы дискурсивных отношений. Nous avançons plusieurs pistes pour y répondre et étudions, plus en détail le cas de la négation.Nous revenons ainsi sur les трудности, которые представляют собой лингвистический перевод для анализа семантического анализа, который является автономным синтаксически-семантическим интерфейсом, который делает естественное чистое семантическое сообщение. Nous montrons que ces трудность для оригинального анализа стандартных отрицательных слов, положительных фраз и фраз, отрицательных для различного фундаментального анализа. Rejetant cette vue, nous présentons une formization nouvelle de la notion d’événement négatif, адаптированный к l’analyse deivers pénomènes linguistiques.
Сравнительный обзор новейших интерфейсов естественного языка для баз данных
В этом разделе мы сосредоточимся на более поздних NLI, начиная с 2005 года. Мы не будем обсуждать более старые системы, такие как BASEBALL [21], LUNAR [64], RENDEZVOUS [9] ], LADDER [47], Chat-80 [61], ASK [57] и JANUS [62], которые часто цитируются в области исследований NLI. Систематически проанализируем 24 недавно разработанные системы в разделах. 5.1–5.4 на основе образца мира, представленного в Разд. 2. Основная цель - выделить сильные и слабые стороны различных подходов на основе конкретной модели данных и конкретных вопросов, чтобы иметь возможность напрямую сравнивать системы.Объяснение основано на информации, описывающей системы, найденной в документах. Наконец, в разд. 6.1 мы оценим системы по типовым вопросам и дадим общую интерпретацию системы.
Существуют разные способы классификации NLI. В этом обзоре мы делим NLI на четыре основные группы в зависимости от используемого технического подхода:
- 1.
Системы на основе ключевых слов
Ядром этих систем является этап поиска, на котором системы пытаются сопоставить заданные ключевые слова с инвертированным индексом базы и метаданных.Эти системы не могут отвечать на агрегированные запросы, такие как вопрос Q7 «». Какой фильм каждого жанра был лучшим? ’Основное преимущество такого подхода - простота и адаптируемость.
- 2.
Системы на основе шаблонов
Эти системы расширяют системы, основанные на ключевых словах, технологиями НЛП для обработки не только ключевых слов, а также добавляют шаблоны естественного языка.Шаблоны могут быть независимыми от домена или зависимыми от домена. Примером независимого от предметной области шаблона может быть разрешение агрегирования со словами « на » или « сколько ». Зависимым от предметной области шаблоном может быть, например, концепция типа « отличный фильм, ».
- 3.
Системы на основе синтаксического анализа
Эти системы анализируют входной вопрос и используют сгенерированную информацию о структуре вопроса для понимания грамматической структуры.Дерево синтаксического анализа содержит много информации об отдельных токенах, а также о том, как токены могут быть сгруппированы вместе для формирования фраз. Основное преимущество этого подхода заключается в том, что семантическое значение может быть сопоставлено с определенными производственными правилами (генерация запроса).
- 4.
Системы на основе грамматики
Ядром этих систем является набор правил (грамматики), которые определяют вопросы, которые пользователь может задать системе.Основное преимущество этого подхода заключается в том, что система может предлагать пользователям естественный язык при вводе их вопросов. На каждый вопрос, который формализован таким образом, система может ответить.
Таблица 2 дает обзор наиболее репрезентативных NLI этих четырех категорий, которые мы обсудим в разделах. 5.1–5.4. В таблице также показано, какие языки запросов поддерживают системы (например, SQL) и какие технологии NLP используются.Таким образом, наш подход к систематической оценке этих систем на примере мира с запросами возрастающей сложности позволяет лучше сравнивать различные подходы.
В следующих подразделах мы систематически проанализируем системы более подробно.
Таблица 2 Категоризация NLI и используемых технологий NLPСистемы на основе ключевых слов
Ядром NLI на основе ключевых слов является их этап поиска. На этом этапе система пытается сопоставить заданные ключевые слова с инвертированным индексом базы и метаданных.Чтобы идентифицировать ключевые слова во входном вопросе, некоторые системы используют удаление стоп-слов (например, NLP-Reduce [32]), другие ожидают от пользователей только ключевые слова в качестве входных данных (например, SODA [6]).
Большинство вопросов легко формулируются с помощью ключевых слов. Однако бывают случаи, когда ключевых слов недостаточно, чтобы выразить намерения пользователей. Например, на вопрос « Какой фильм каждого жанра был лучшим? »(Q7),« версия только по ключевым словам »будет выглядеть примерно как« жанр лучшего фильма », что с большей вероятностью будет интерпретировано как« жанр лучшего фильма ».Если пользователи зададут вопрос типа « лучший фильм по жанрам », NLI на основе ключевых слов попытается найти токен « на » в базе и метаданных или классифицировать « на » как стоп-слово. и игнорируйте это.
Далее мы суммируем семь NLI на основе ключевых слов. Мы решили подробно описать SODA [6] как первую систему, потому что она может решить большинство наших примеров входных вопросов в этой категории (см. Раздел 2.2). SODA - это NLI, который ожидает от пользователя только ключевые слова и может обрабатывать агрегаты с использованием определенных шаблонов на неестественном языке.После этого мы резюмируем другие системы, и мы подчеркиваем разницу между ними, SODA и друг другом.
SODA (поиск в хранилище DAta)
SODA [6] - это система, которая обеспечивает NLI на основе ключевых слов для реляционных баз данных с некоторыми расширениями в направлении системы на основе шаблонов. Базовые данные состоят из реляционной базы данных. Метаданные могут включать несколько онтологий, которые обрабатываются как шаблоны естественного языка. Например, предметно-ориентированные онтологии с концепциями (например, концепция « отличный фильм, » в образце мира) или DBpedia для определения омонимов и синонимов.SODA использует оба инвертированных индекса (базовые и метаданные) в качестве основы для поиска совпадений запросов в данных. Ключевым нововведением SODA является то, что он предоставляет возможность определять шаблоны метаданных, которые определяют концептуальные модели. Концепция « хороший фильм, » может зависеть от различных переменных не только от рейтинга, но, например, также от количества оценок. Затем пользователи могут применить эту концепцию к своим вводным вопросам, например, они могут искать « all great movie » (Q6), не указывая, что такое хороший фильм.
Предполагая, что пользователи хотят знать режиссера фильма « Бесславные ублюдки, » (Q1), входной вопрос для SODA может быть: « режиссер Бесславные ублюдки, ».
SODA использует пять шагов для перевода этого ключевого слова: вопрос ввода на основе SQL-запроса. Первым шагом является поиск: он проверяет ключевые слова по инвертированным индексам по базе данных и предоставляет все узлы в графе метаданных, где эти ключевые слова находятся. Для входного вопроса Q1 это означает, что ключевое слово « Director » можно найти в инвертированном индексе метаданных, будь то имя таблицы Director или имя атрибута Director.DirectorId и Directing.director-Id (рис. 7: красный). Ключевое слово « Inglourious Basterds » встречается только в инвертированном индексе базовых данных как значение атрибута Movie.Title (рис. 7: зеленый). Это приводит к трем различным наборам решений для следующих шагов: {Directing.directorId, Movie.Title}, {Director.directorId, Movie.Title} и {Director, Movie.Title}.
Рис. 7Узлы в графе метаданных, соответствующие ключевым словам « Director » (красный) и « Inglourious Basterds » (зеленый), найденным на этапе поиска SODA (цветной рисунок онлайн)
Второй Шаг заключается в присвоении оценки каждому решению на этапе поиска.SODA использует простой эвристический метод, например, внутренние решения получают более высокий балл. Для входного вопроса решение {Director, Movie.Title} получает наивысший балл, потому что имя таблицы Director является полным совпадением, а не только нечетким совпадением, как в DirectorId. После этого для следующего шага предоставляются только n лучших решений.
Третий шаг определяет, какие таблицы используются для каждого из решений, предоставленных на предыдущем шаге. Кроме того, на этом этапе обнаруживаются отношения и структуры наследования между этими таблицами.Для наилучшего решения вопроса ввода таблицы Режиссер и Фильм соответствуют различным точкам входа. Точка входа - это узел в графе метаданных. Таблица Director является дочерним элементом таблицы Person (ISA-связь). Поэтому SODA включает в решение таблицу Per-son. Чтобы связать таблицу Movie с двумя другими таблицами, необходимо добавить в решение дополнительные таблицы. Ближайшая ссылка - через таблицу Направление (см. Рис. 7), поэтому эта таблица включена.
Четвертый этап собирает фильтры.Есть два типа фильтров, которые собираются. Первый - это фильтры во входном вопросе, например, « Бесславные ублюдки, ». Второй - это условия фильтрации, которые возникают во время обхода графа метаданных, например, концепция « отличный фильм, ».
Пятый и последний шаг генерирует разумный и исполняемый SQL-запрос из информации, собранной на предыдущих шагах. Разумный SQL-запрос - это запрос, который учитывает внешние ключи и шаблоны наследования в схеме.Исполняемый SQL-запрос - это запрос, который может быть выполнен в базовой базе данных.
Сильные стороны SODA - это использование шаблонов метаданных и онтологий предметной области, которые позволяют определять концепции и включать знания, специфичные для предметной области. Кроме того, включение внешних источников, таких как DBpedia для омонимов и синонимов, полезно для получения значимых результатов. Кроме того, SODA предназначена для развития и, следовательно, улучшения с течением времени на основе отзывов пользователей.
Слабые стороны SODA в том, что он использует простое распознавание слов для операторов сравнения.Например, чтобы получить все фильмы с рейтингом выше 9, входной вопрос должен быть записан как « рейтинг > 9 » (Q2). Более того, SODA использует очень строгий синтаксис для операторов агрегирования. Например, чтобы получить количество фильмов в год, входной вопрос должен быть записан как « выберите количество (фильм), сгруппируйте по (году) ». Эти шаблоны полезны, но не на естественном языке. Кроме того, нет лемматизации, выделения корней или какой-либо другой предварительной обработки входного вопроса, которая может привести к проблеме со словами, которые используются во множественном числе.Например, входной вопрос « все фильмы » не обнаружит таблицу Movie, но входной вопрос «все фильмы» отобразит ожидаемый результат.
Blunschi et al. [6] предлагают расширить SODA для обработки временных аспектов хранилища данных (например, двухвременной историзации). Они также указали, что графический интерфейс SODA должен быть улучшен, чтобы пользователи участвовали в выборе и ранжировании различных результатов. Более того, отзывы пользователей, предоставляемые SODA, в настоящее время очень просты и нуждаются в улучшении.
NLP-reduce
NLP-Reduce [32] использует несколько простых технологий NLP для «уменьшения» входных токенов перед поиском в базе знаний (KB) на основе RDF. Система берет входной вопрос, сокращает его до ключевых слов, переводит в SPARQL для запроса базы знаний и затем возвращает результат пользователю.
В отличие от SODA, NLP-Reduce использует не только синонимы, но и две другие технологии NLP: (а) удаление стоп-слов и знаков препинания и (б) выделение корней.Благодаря удалению стоп-слов и знаков препинания NLP-Reduce может отвечать на некоторые вопросы, содержащие фрагменты и полные предложения. NLP-Reduce по-прежнему не может отвечать на вопросы с агрегатами типа «» Какой фильм каждого жанра был лучшим? ’(Q7), поскольку он удалит токен« каждого »в качестве стоп-слова. Кроме того, стемминг помогает пользователю сформулировать такие вопросы, как « все фильмы », что более естественно, чем « все фильмы » для SODA.
После сокращения входного вопроса NLP-Reduce выполняет шаги, аналогичные SODA: (1) поиск троек в графе RDF (аналогично основанию и метаданным), где встречается хотя бы один из токенов вопроса, и ранжирование найденных троек, (2) поиск свойств, которые могут быть объединены с тройками, найденными на предыдущем шаге, по оставшимся токенам вопросов, (3) поиск значений свойств типа данных, которые соответствуют оставшимся токенам вопросов, и (4) создание соответствующего запроса SPARQL.
По сравнению с SODA, сильная сторона NLP-Reduce заключается в сокращении количества вводимых вопросов, так что ответы на вопросы, не связанные с ключевыми словами, можно получить. Помимо общей слабости NLI на основе ключевых слов, NLP-Reduce не может ответить на вопросы сравнения, такие как Q2.
Précis
Précis [51] - это NLI на основе ключевых слов для реляционных баз данных, который поддерживает несколько терминов, объединяемых с помощью операторов AND, OR и NOT. Например, введите вопрос « Покажите мне все драмы и комедии». »(Q5) можно было бы сформулировать как« «драма» ИЛИ «комедия» ». Ответом является полная база данных с множественными отношениями, которая является логическим подмножеством исходной базы данных.
Сначала Précis преобразует входной вопрос в дизъюнктивную нормальную форму (DNF). После этого каждый член DNF ищется в инвертированном индексе базовых данных. Это отличается от SODA, где инвертированный индекс включает метаданные. Если термин не может быть найден, следующие шаги не выполняются. На третьем этапе создается схема подмножества логической базы данных, которая представляет ответ на входной вопрос.Это включает идентификацию необходимых путей соединения.
Сильной стороной Précis является возможность использовать скобки, И, ИЛИ и НЕ для определения входящего вопроса. Однако слабые стороны в том, что это снова составляет логический язык запросов, хотя и более простой. Кроме того, он может решать только логические вопросы, а входной вопрос может состоять только из терминов, которые находятся в базовых данных, а не в метаданных. Например, входной вопрос « Кто режиссер« Бесславных ублюдков »? »(Q1) не может быть решен напрямую, потому что« , директор, »- это имя таблицы и, следовательно, часть метаданных.Включен механизм, который добавляет дополнительную информацию к ответу (например, об актерах, режиссерах и т. Д. В фильм), но тогда пользователю придется искать режиссера в ответе.
QUICK (Конструктор намерения запроса для ключевых слов)
QUICK [68] - это NLI, который добавляет выразительность семантических запросов к удобству поиска по ключевым словам. Для этого пользователи начинают с вопроса с ключевым словом, а затем проходят этапы постепенного уточнения, чтобы выбрать цель вопроса.Система предоставляет пользователю интерфейс, который отображает семантические запросы в виде графиков и текстовой формы.
На первом этапе QUICK берет ключевые слова входного вопроса и сравнивает их с базой знаний. Каждая возможная интерпретация соответствует семантическому запросу. Например, входной вопрос « Брэд Питт, » может означать « фильмов, в которых Брэд Питт играл в », « фильмов режиссера Брэда Питта, » или « фильмов, написанных Брэдом Питтом » (см. Рис.1). На следующем этапе система предоставляет пользователям информацию таким образом, чтобы они могли выбрать семантический запрос, который ответит на их вопрос. Для этого QUICK предоставляет пользователям возможные интерпретации каждого ключевого слова на выбор. Это делается с помощью графа, а также текстовой формы семантического запроса. Текстовая форма - это перевод SQL-запроса на естественный язык на основе шаблонов. Кроме того, система упорядочивает ключевые слова таким образом, чтобы взаимодействие с пользователем было минимальным.Когда пользователи выбирают желаемый семантический запрос, QUICK выполняет его и отображает результаты в пользовательском интерфейсе.
Сильной стороной QUICK является интерфейс взаимодействия с пользователем с оптимизацией для минимального взаимодействия с пользователем во время выбора семантического запроса. Слабость QUICK в том, что он ограничен ациклическими соединениями тройных паттернов.
QUEST (генератор QUEry для структурированных источников)
QUEST [4] - это NLI на основе ключевых слов для перевода входных вопросов в SQL.Он сочетает в себе семантические и статистические методы машинного обучения для перевода.
Первый шаг - определить, как ключевые слова во входном вопросе соответствуют элементам базы данных (поиск). В отличие от SODA, QUEST использует две скрытые марковские модели (HMM) для выбора соответствующих элементов (ранжирования). Первый HMM - это набор эвристических правил. Второй HMM обучается с учетом отзывов пользователей. Следующим шагом является определение возможных путей соединения для соединения всех соответствующих элементов из предыдущего шага.QUEST выбирает наиболее информативные пути соединения (аналогично шагу 4 SODA). Наиболее информативными являются пути соединения, содержащие кортежи в базе данных. На третьем этапе QUEST решает, какая комбинация сопоставления ключевых слов и пути соединения наиболее вероятно представляет семантику, которую пользователи имели в виду при формулировании вопроса с ключевым словом.
Сильной стороной QUEST является сочетание отзывов пользователей и набора эвристических правил во время ранжирования. Это позволяет системе со временем учиться у пользователей.Слабым местом QUEST является то, что он не может обрабатывать такие понятия, как « хороший фильм, ».
SINA
SINA [50] - это NLI на основе ключевых слов, который преобразует вопросы ввода естественного языка в конъюнктивные запросы SPARQL. Он использует скрытую марковскую модель для определения наиболее подходящего ресурса для заданного входного вопроса из различных наборов данных.
На первом этапе SINA сокращает вводимый вопрос до ключевых слов (аналогично NLP-Reduce), используя токенизацию, лемматизацию и удаление стоп-слов.На следующем этапе ключевые слова группируются в сегменты в соответствии с доступными ресурсами. Например, ключевые слова « бесславные » и « ублюдки » будут сгруппированы в один сегмент на основе соответствия « бесславных ублюдков ». На третьем этапе соответствующие ресурсы извлекаются на основе сопоставления строк между сегментов и метки RDF ресурса. На следующем этапе определяется лучшее подмножество ресурсов для данного входного вопроса (ранжирование).Пятый шаг, SINA создает запрос SPARQL, используя графическую структуру базы данных. Наконец, пользователям показываются результаты, полученные при оценке сгенерированного запроса SPARQL.
Самая большая слабость SINA заключается в том, что он может преобразовывать только в конъюнктивные запросы SPARQL, что сокращает количество вопросов, на которые можно ответить.
Aqqu
Aqqu [2] - это NLI, который использует шаблоны для определения возможных отношений между ключевыми словами. В конце процесса перевода ML используется для ранжирования возможных решений.
Чтобы перевести входной вопрос в SPARQL, сначала идентифицируются объекты из базы знаний, которые соответствуют (возможно, перекрывающимся) частям входного вопроса. Возможные части идентифицируются с помощью тегов PoS. Например, отдельные токен-части должны быть существительным (NN), а собственные существительные (NNP) не могут быть разделены (например, « Brad Pitt »). На следующем этапе Aqqu использует три разных шаблона, которые определяют общие отношения между ключевыми словами. После этого Aqqu пытается определить соответствующую взаимосвязь.Это можно сделать либо с помощью вопроса ввода (глаголы и прилагательные), либо с помощью ML, который, например, может определить абстрактные отношения, такие как « родился \ (\ rightarrow \) дата рождения .» Последний step - это рейтинг, который решается с помощью ML. Наилучший результат достигается при использовании бинарного классификатора случайных лесов.
Сильной стороной Aqqu является идентификация абстрактных отношений. Слабым местом является ограничение NLI на основе ключевых слов.
Системы на основе шаблонов
NLI на основе шаблонов - это расширение систем на основе ключевых слов с шаблонами естественного языка для ответа на более сложные вопросы, такие как концепции (Q6) или агрегаты (Q7).Например, вопрос « Какой фильм каждого жанра был лучшим? ’(Q7) не может быть сформулирован только с ключевыми словами. Требуется хотя бы некоторая связующая фраза между « лучший фильм, » и « жанр, », которая указывает на агрегирование. Это может быть сделано с помощью токена без ключевого слова (триггерного слова) « на » для агрегирования, что будет указывать на то, что правая сторона включает ключевые слова для предложения group by, а левая сторона - ключевые слова для предложения select. .Трудность с триггерными словами состоит в том, чтобы найти все возможные синонимы, разрешенные естественным языком. Например, агрегирование может подразумеваться словом « на », но также и « каждого » (сравните Q7).
Далее мы резюмируем два NLI на основе шаблонов. Мы решили подробно описать NLQ / A [69], потому что оно основано на идее, что ошибки, допущенные технологиями NLP, не стоят получения информации. Вместо этого система сильно зависит от ввода пользователя для решения проблем неоднозначности, и поэтому она фокусируется на оптимизации взаимодействия с пользователем.
NLQ / A
NLQ / A [69] - это NLI для запроса графа знаний. Система основана на новом подходе без таких технологий NLP, как парсеры или теги PoS. Идея состоит в том, что ошибки, допущенные этими технологиями, не стоят получения информации. Например, дерево синтаксического анализа помогает для некоторых вопросов, таких как подзапросы (например, Q9), но если дерево синтаксического анализа неправильное, система не сможет перевести даже более простые вопросы. Вместо этого NLQ / A позволяет пользователям решать все проблемы неоднозначности, в том числе те, которые могут быть решены с помощью тегов PoS или деревьев синтаксического анализа.Чтобы избежать необходимости слишком большого количества шагов взаимодействия, NLQ / A обеспечивает эффективный жадный подход к процессу взаимодействия.
Предполагая, что пользователи хотят знать режиссера фильма « Бесславные ублюдки, » (Q1), входной вопрос может быть таким: « Кто является режиссером фильма« Бесславные ублюдки »? . ’
NLQ / A использует четыре шага, чтобы ответить на входной вопрос. Первый шаг - определить фразы входящего вопроса. В общем, фразы можно разделить на два типа: независимых и зависимых фраз. Независимые фразы идентифицируются с помощью словаря фраз. Словарь состоит из переменных, агрегатов, операторов, модификаторов и фраз-кванторов. Чтобы обнаружить зависимых фраз, большинство стоп-слов удаляются (упрощенный вопрос ввода). Некоторые типы слов, такие как предлоги, по-прежнему необходимы и поэтому сохраняются. Следующий 1: генерируются n-граммы. Фразы, начинающиеся с предлогов, отбрасываются. После удаления стоп-слова входной вопрос Q1 станет « директор Inglourious Basterds ».'Если n установлено в 2, извлеченные фразы будут такими: {' директор , ' директор ', ' бесславный ', ' бесславный ублюдок ,' ублюдок . '} Далее, фразы расширены согласно словарю синонимов. Например, если есть фраза « с в главной роли», она будет расширена фразой « играет ». Эти расширенные фразы отображаются в граф знаний на основе сходства строк (расстояние редактирования). Для одной расширенной фразы может быть несколько сопоставлений-кандидатов.
На следующем шаге выбираются сопоставления кандидатов и делается попытка найти истинное значение входного вопроса с помощью пользователей. Чтобы уменьшить количество взаимодействий для пользователя, предлагается граф фразовой зависимости (PDG). PDG состоит из двух частей: (PDG1) граф, где каждый узел представляет фразу, две фразы связаны, если они имеют хотя бы один общий токен, и (PDG2) подграф графа знаний, состоящий из кандидатов, где каждый узел представляет собой кандидата, два узла связаны, если они смежны в графе знаний.Две части соединены ребрами, представляя собой соответствие между фразами и кандидатами (см. Рис. 8).
Рис. 8График зависимости фраз (PDG) для входного вопроса « Кто является директором« Бесславных ублюдков »? . ’(PDG1: вводный вопрос; PDG2: граф знаний)
На третьем этапе пользователи участвуют в разрешении неоднозначности, указанной в PDG. Чтобы уменьшить необходимое взаимодействие с пользователем, NLI пытается найти те грани, которые разрешают большинство двусмысленностей (аналогично идее QUICK).
На последнем шаге отобранных кандидатов пытаются объединить в один граф. Связный граф будет содержать ответ на вопрос. Группы уже подключенных кандидатов в PDG2 называются фрагментами запроса. На рис. 8 кандидаты « Director-Of » и « Inglourious Basterds » представляют собой один фрагмент запроса. Для каждого фрагмента запроса система пытается найти путь с наибольшим сходством с упрощенным вопросом ввода. Для входного вопроса Q1, если пользователи выберут « Director » в качестве кандидата на шаге 3, система найдет путь, как показано на рис.9. « Inglourious Basterds » также является кандидатом, но не выбран пользователями, потому что здесь нет двусмысленности, которую нужно разрешить.
Рис. 9График ответов, созданный для входного вопроса « Кто является директором« Бесславных ублюдков »? ’на основе выбранных кандидатов (синий) (цветной рисунок онлайн)
Сильные стороны этого NLI - простота и эффективный процесс взаимодействия с пользователем. Простота позволяет легко адаптироваться к новым графам знаний и вместе с процессом взаимодействия с пользователем преодолевает трудности двусмысленности.
Слабость этой системы заключается в том, что обычно требуется более одного взаимодействия с пользователем для устранения неоднозначности, в экспериментах среднее количество взаимодействий было три [69].
QuestIO (интерфейс для онтологий на основе запросов)
QuestIO [11] - это NLI для запросов онтологий с использованием неограниченного естественного языка. Он автоматически извлекает из онтологии понятную человеку лексикализацию. Следовательно, качество семантической информации в онтологии должно быть очень высоким, чтобы содержать достаточно понятных человеку ярлыков и / или описаний.Например, атрибут Movie.Release-Date будет извлечен как « Дата выпуска », что является понятным для человека ярлыком. Напротив, атрибут Movie.OriginalLang приведет к « Original Lang », где токен « Lang » является сокращенной версией для « Language » и непонятен для человека.
QuestIO переводит входной вопрос в три этапа: На первом этапе инструмент идентификации ключевого понятия идентифицирует все токены, которые относятся к упоминаниям ресурсов онтологии, таких как экземпляры, классы, свойства или значения свойств.Это похоже на зависимые фразы NLQ / A. На следующем этапе сборщик контекста определяет шаблоны (например, ключевые фразы, такие как « сколько ») в оставшихся токенах, которые помогают системе понять запрос (аналогично независимым фразам NLQ / A). Последний шаг определяет отношения между ресурсами онтологии, собранными на предыдущих шагах, и формулирует соответствующий формальный запрос. После выполнения запроса он будет отправлен в средство форматирования результатов , чтобы отобразить результат в удобной для пользователя форме.
Автоматическое извлечение семантической информации из онтологии - это сильная и слабая сторона QuestIO. Это сильно зависит от разработки понятных человеку ярлыков и описаний, без них QuestIO не сможет сопоставить вводимые вопросы с автоматически извлеченной информацией.
Системы на основе синтаксического анализа
NLI на основе синтаксического анализа идут дальше, чем описанные ранее системы: они анализируют входной вопрос и используют сгенерированную информацию о структуре вопроса для понимания грамматической структуры.Например, грамматическая структура может быть использована для определения зависимостей, задаваемых триггерным словом « на » в вопросе. Это необходимо для зависимостей с большим радиусом действия, которые нельзя отловить с помощью простых шаблонов естественного языка. Кроме того, синтаксический анализатор зависимостей может помочь справиться с трудностью многословности. Например, номинальный модификатор (nmod) может использоваться для идентификации агрегатов.
Далее мы резюмируем восемь NLI на основе синтаксического анализа. Мы решили подробно описать ATHENA [48], потому что она может ответить на большинство вопросов из входных примеров.Кроме того, ATHENA использует большинство технологий НЛП, и авторы подробно описывают все этапы. После этого мы резюмируем другие системы, и мы выделяем дельту для ATHENA и предыдущих систем.
ATHENA
ATHENA [48] - это управляемый онтологией NLI для реляционных баз данных, который обрабатывает полные предложения на английском языке в качестве входного вопроса. Для ATHENA управление онтологией означает, что он основан на информации данной онтологии и требует отображения между онтологией и реляционной базой данных.С каждым элементом онтологии может быть связан набор синонимов. Во время перевода входного вопроса в SQL-запрос ATHENA использует промежуточный язык запросов перед последующим переводом его в SQL.
Предполагая, что пользователи хотят знать режиссера фильма « Бесславные ублюдки, » (Q1), входной вопрос для ATHENA может быть таким: « Кто является режиссером фильма« Бесславные ублюдки »? . ’
ATHENA использует четыре шага для перевода полного вопроса ввода предложения в запрос SQL.На первом этапе используется аннотатор свидетельств онтологии, который сопоставляет входные данные с набором элементов онтологии. Возможны пять типов совпадений:
- а.
метаданные : поиск совпадения в инвертированном индексе для метаданных (и связанного набора синонимов). Более длинные совпадения по входному вопросу предпочтительны, если есть несколько совпадений.
- б.
индекс перевода : индекс перевода является расширением инвертированного индекса по базовым данным, который обогащен вариациями имен лиц и компаний. Например, для имени человека « Брэд Питт » также будет запись « Б. Питт ».
- c.
выражения временного диапазона : поиск всех временных диапазонов, например « от 2000 до 2010 » (Q5), с помощью аннотатора TIMEX.Затем эти временные диапазоны сопоставляются со свойствами онтологии с соответствующим типом данных.
- d.
числовые выражения : поиск всех токенов, содержащих числовые величины, с помощью аннотатора Стэнфордских числовых выражений. Числовые величины могут быть в форме чисел (например, 9) или в текстовой форме (например, девять).Затем эти числовые выражения сопоставляются со свойствами онтологии с соответствующим типом данных.
- е.
зависимости : Аннотирование зависимостей между токенами во входном вопросе. Например, во входном вопросе Q1 существует зависимость между маркерами « Director » и « Inglourious Basterds », обозначенная маркером « из ».’
Для входного вопроса Q1 аннотация метаданных обнаружит три разных совпадения для « Director », а именно имя таблицы Director и имя атрибута Director.directorId и Directing.director-Id (рис. 10: красный). Индекс перевода найдет совпадение с биграммой « Inglourious Basterds », соответствующей атрибуту Movie.Title (рис. 10: зеленый).
Фиг.10Найденные ATHENA совпадения с аннотатором онтологических свидетельств для входного вопроса «» Кто является директором «Бесславных ублюдков»? ’(цветной рисунок онлайн)
На следующем этапе создается ранжированный список интерпретаций. Интерпретация - это набор элементов онтологии, предоставленных на предыдущем шаге. Если для одного токена существует n элементов онтологии, также будет n различных интерпретаций, по одной для каждого элемента онтологии. Для данного входного вопроса возможны три различных толкования: {Режиссура.DirectorId, Movie.Title}, {Director.directorId, Movie.Title} и {Director, Movie.Title}. Каждая интерпретация представлена набором деревьев интерпретации. Дерево интерпретации (iTree) является поддеревом онтологии. Каждый iTree должен удовлетворять:
- а.
Покрытие доказательств : Все токены, которые были аннотированы на предыдущем шаге, должны быть покрыты.
- б.
слабая связность : все концепции должны быть хотя бы слабо связаны неориентированным путем, и каждое свойство должно быть связано с соответствующим ему понятием. Для первой интерпретации это означает, что Режиссер и Кино должны быть связаны, например, через отношение Направление. Атрибут Title необходимо связать с соответствующим понятием (в данном случае таблицей) Movie.
- c.
ограничение наследования : Ни одному элементу онтологии не разрешено наследовать от своих дочерних концепций. Например, элементу онтологии Person не разрешено наследовать роль актера. Допускается другое направление, так что Актер наследует FirstName и LastName от Person.
- d.
ограничение отношения : включаются все отношения, указанные во входном вопросе, независимо от направления пути.Например, токены дерева « фильмы, », « с участием » и « Брэд Питт, » (Q5) подразумевают ограничение отношения между элементом онтологии Movie, Starring и Person. Эти три элемента онтологии необходимо соединить. Соответственно, в этом примере необходимо включить элемент онтологии Actor.
Для ранжирования различных интерпретаций ATHENA генерирует одно единственное дерево iTree.Он может состоять из объединения нескольких деревьев iTree или одного дерева iTree. На рисунке 11 показано возможное iTree для интерпретации {Director, Movie.Title}, которое расширено элементами онтологии Directing и Movie. После этого шага для каждой интерпретации остается только одно iTree.
Рис. 11Дерево возможных интерпретаций (черный) для входного вопроса « Кто является директором« Бесславных ублюдков »? ’(Q1)
На третьем этапе используется ранжированный список интерпретаций для генерации промежуточного запроса на языке запросов Ontology Query Language (OQL).OQL был специально разработан для ATHENA как промежуточный язык между входным вопросом и SQL и может выражать запросы, которые включают агрегаты, объединения и отдельные вложенные подзапросы. Структура запроса OQL аналогична SQL и генерируется следующим образом:
- а.
из , пункт : Определяет все концепции, обнаруженные в онтологии, вместе с их псевдонимами. Псевдонимы необходимы, например, если понятие встречается несколько раз.Например, входной вопрос « Покажи мне все драмы и комедии». »(Q4) будет указывать на Жанр в онтологии дважды: один раз для токена« драма »и один раз для« комедия ». Следовательно, необходимы два псевдонима, чтобы различать их.
- б.
group by clause : Предложение group by запускается словом « by » и только маркеры, аннотированные метаданными на шаге 1.считаются. Например, входной вопрос «» Какой фильм был лучшим по жанрам? ’(модифицированный Q7). Для определения зависимостей между зависимым и зависимым (проиллюстрировано « на ») используется Стэнфордский синтаксический анализатор зависимостей.
- c.
выберите пункт : существует два возможных типа: агрегирование , и , отображающие свойства .Агрегирование Свойства зависят от предложения group by. Функция агрегирования по умолчанию - это сумма. Для (измененного) входного вопроса Q7 ATHENA обнаружит группу по предложению, потому что « по жанру, » нуждается в функции агрегирования. Предполагая, что ATHENA может перевести « лучший фильм » в « лучший фильм », она применит функцию агрегирования max к Movie.Rating. Если нет агрегатов, ATHENA использует маркеры, аннотированные метаданными, поскольку отображает свойства , которые отображаются пользователю.
- d.
order by clause : Свойства, используемые в предложении order by, обозначаются такими токенами, как « минимум », « most », « заказано », « top » и другими. Например, ответ на вопрос «» Какой фильм получил больше всего? ’(Q3) будет запускать пункт order by для Movie.Брутто из-за триггерного слова « максимум ».
- е.
, где пункт : токены, аннотированные индексом перевода, временным диапазоном или числовым выражением, используются в предложении where для фильтрации результата (например, токены « Inglourious Basterds »). Если фильтр применяется к агрегации, вместо предложения where создается предложение Have.
На последнем этапе запрос OQL преобразуется в запрос SQL, где каждый атрибут и условие соединения являются либо конкретным , либо виртуальным . Бетон означает, что существует прямое отображение между онтологией и базой данных (например, « директор »). Virtual подразумевает, что существует (сложная) взаимосвязь между элементами онтологии и базой данных (например, « отличный фильм »).Кроме того, результат интерпретации с лучшим рейтингом отображается напрямую, но пользователи также видят и другие интерпретации. Все n лучших интерпретаций, найденных ATHENA, переведены обратно в полные предложения на английском языке для пользователей, чтобы пользователи могли выбрать наиболее подходящую.
Сильные стороны ATHENA - это онтология как абстракция реляционной базы данных и объяснение на естественном языке для каждой интерпретации входного вопроса. Индекс перевода содержит не только синонимы, но и семантические варианты для определенных типов значений, таких как названия лиц и компаний.Кроме того, ATHENA может обрабатывать одноуровневую вложенность во входном вопросе. Примером входного вопроса может быть « Все фильмы с рейтингом выше, чем рейтинг« Город грехов ». ’(Q9).
Одной из слабых сторон ATHENA является то, что не поддерживается ни отрицание (Q8), ни множественные элементы в предложении group by (например, « Какой фильм был лучшим по годам и жанр? »).
Saha et al. [48] предлагают расширить ATHENA для обработки более чем одноуровневого вложения.Кроме того, они предлагают дать возможность ответить на уточняющие вопросы, используя контекст предыдущих вопросов.
Querix
Querix Footnote 5 [31] позволяет пользователям вводить вопросы на естественном языке для запроса онтологии. Если система обнаруживает какие-либо двусмысленности во входном вопросе, она запрашивает у пользователя пояснения в диалоговом окне. Querix использует синтаксическое дерево для извлечения последовательности слов из основных категорий слов: существительное (N), глагол (V), предлог (P), wh-местоимение (Q, e.г., что, где, когда и т. д.) и союз (С). Эта последовательность называется каркасом запроса. Каркас запроса используется для обогащения существительных и глаголов и для определения шаблонов субъект-свойство-объект в запросе.
В отличие от ATHENA, в которой используется множество различных инструментов и технологий, Querix использует только информацию скелета запроса (дерево разбора) и синонимы (как для входного вопроса, так и для онтологии) для перевода входного вопроса в SPARQL. . Для перевода в SPARQL Querix использует три компонента: анализатор запросов , центр сопоставления и генератор запросов .Анализатор запросов выполняет две задачи: (1) Он применяет Стэнфордский синтаксический анализатор к входному вопросу для создания синтаксического дерева, из которого Querix извлекает скелет запроса. Например, скелет запроса «QVNP-N» извлекается из входного вопроса (Q1) как « Кто (Q) - это (V) директор (N) из (P) « Бесславный Ублюдки » (N) ? ’. (2) Он обогащает все существительные и глаголы синонимами, предоставляемыми WordNet.
Центр сопоставления является основным компонентом Querix: (1) Он пытается сопоставить скелет запроса с помощью небольшого набора эвристических шаблонов.Эти шаблоны используются в основном для идентификации шаблонов субъект-свойство-объект во входном вопросе. (2) Он ищет совпадения между существительными и глаголами входного вопроса с ресурсами в онтологии (включая синонимы). (3) Он пытается сопоставить результаты двух предыдущих шагов. Затем генератор запросов составляет запросы SPARQL из объединенных триплетов, доставленных последним шагом центра сопоставления. Если существует несколько различных решений с наивысшей оценкой стоимости, Querix проконсультируется с пользователем, показывая меню, из которого пользователь может выбрать предполагаемое значение.
Простота Querix - это одновременно и сильная сторона, и слабость: он прост в использовании и полностью переносим, но эта простота также уменьшает количество вопросов, на которые можно ответить, поскольку они должны придерживаться предопределенного синтаксиса.
FREyA (обратная связь, уточнение и агрегирование расширенного словаря)
FREyA [12] основана на QuestIO. Он позволяет пользователям вводить запросы в любой форме на английском языке. Он генерирует синтаксическое дерево синтаксического анализа для определения типа ответа. Процесс перевода начинается с поиска, аннотирования терминов запроса с концепциями онтологии с помощью эвристических правил.Если есть неоднозначные аннотации, пользователь вступит в диалог с уточнением. Выбор пользователя сохраняется и используется для обучения системы, чтобы со временем улучшить ее производительность. В итоге система генерирует SPARQL-запрос.
Сильной стороной этой системы является взаимодействие с пользователем, которое не только помогает пользователям найти правильный ответ, но и со временем улучшает FREyA. Кроме того, FREyA выполняет идентификацию типа ответа, что приводит к более точным ответам.Слабость в том, что только на некоторые вопросы можно было ответить без каких-либо поясняющих диалогов. Более того, система не может отвечать на отрицания.
BELA
BELA [58] - это NLI с многоуровневым подходом. Это означает, что на каждом слое определяется лучшая гипотеза. Если достоверность для конкретной интерпретации равна 1 и сгенерированный ею запрос SPARQL дает ответ по крайней мере с одним результатом, процесс перевода останавливается и ответ возвращается пользователю.Только для ASK-вопросов (на которые есть ответы «да» / «нет») процесс продолжается до тех пор, пока достоверность интерпретаций не начинает различаться, затем применяется порог 0,9 и пустой результат (равный ответу нет ). принял.
Подобно Querix, BELA анализирует входной вопрос и создает набор шаблонов запросов, которые отражают семантическую структуру. Следующим шагом является поиск в индексе, включая перенаправления Википедии (это соответствует индексу перевода ATHENA).Первый поиск выполняется без нечеткого сопоставления, если результат не может быть найден, применяется порог 0,95 для сопоставления с нормализованным расстоянием Левенштейна. Третий поиск позволяет использовать синонимы, гиперонимы и гипонимы из WordNet. В последнем поиске (и шаге) используется явный семантический анализ , который можно использовать для связи таких выражений, как « играет » с такими понятиями, как «, актер, ».
По сравнению с другими системами, BELA фокусируется не только на решении задача перевода, но также сокращает время вычислений, что повышает удобство использования.
USI Answers
USI Answers [59] - это NLI для полуструктурированных отраслевых данных. Он предлагает доступ на естественном языке к большим массивам данных, которые используются Siemens Energy при планировании и предоставлении услуг. База данных состоит из нескольких баз данных, например онтологий для конкретных предметных областей, различных реляционных баз данных и конечных точек SPARQL. Это могут быть внутренние или внешние знания (например, DBpedia). Более того, пользователи требовали иметь возможность использовать не только вопросы на естественном языке и формальные конструкции языка запросов, но также вопросы с ключевыми словами или их сочетание.
В отличие от предыдущих NLI на основе синтаксического анализа, ответы USI не могут полагаться на дерево синтаксического анализа из-за различных типов возможных входных данных (например, вопросы с ключевыми словами). Тем не менее, первый шаг включает в себя различные технологии NLP, такие как лемматизация, тегирование PoS, распознавание именованных сущностей и синтаксический анализ зависимостей. Для обработки входных терминов, зависящих от предметной области, существует список синтаксических правил для повторной проверки информации об объектах после применения технологий NLP. Кроме того, фокус вопроса (т.е., объект сущности, на который имеется ссылка) идентифицируется применением 12 синтаксических правил. Следующий шаг, обогащенный этой информацией, направлен на выявление и решение различных концепций, которые могут содержаться во входном вопросе (поиск). Затем USI Answers обнаруживает и предварительно проверяет различные отношения и объекты, обнаруженные на предыдущем шаге. Четвертый шаг генерирует различные интерпретации вопросов, включая то, как понятия и примеры связаны друг с другом. После этого различные интерпретации проверяются и оцениваются.Это делается с помощью изученной модели, основанной на пользовательских представлениях. Последний шаг создает окончательный запрос на репрезентативном языке запросов.
Одно из преимуществ USI Answers - это возможность запрашивать различные ресурсы базы данных. Кроме того, пользователи могут выбирать предпочитаемый тип входных вопросов.
NaLIX (интерфейс естественного языка для XML)
NaLIX [38] - это интерактивный NLI для запросов к базе данных XML с помощью XQuery. Взаимодействие основано на том, чтобы побуждать пользователей задавать вопросы, с которыми система может справиться, предоставляя содержательные отзывы и полезные предложения по перефразированию.Кроме того, NaLIX предоставляет пользователям шаблоны и историю вопросов. Он сохраняет предыдущие усилия пользователей по поиску и предоставляет пользователям быструю отправную точку при создании новых вопросов.
Подобно Querix, NaLIX в основном использует дерево синтаксического анализа для перевода входного вопроса в XQuery. После того, как MiniPar Footnote 6 используется для синтаксического анализа входного вопроса, NaLIX идентифицирует фразы в дереве синтаксического анализа входного вопроса, которые могут быть сопоставлены с компонентами XQuery, и классифицирует их.На следующем этапе NaLIX проверяет классифицированное дерево синтаксического анализа из предыдущего шага: он проверяет, знает ли он, как преобразовать классифицированное дерево синтаксического анализа в XQuery, и все ли имена и значения атрибутов могут быть найдены в базе данных. Последний шаг переводит классифицированное дерево синтаксического анализа в соответствующее выражение XQuery, если это возможно. Как во время классификации, так и во время проверки дерева синтаксического анализа, информация об ошибках (например, неизвестные фразы и недопустимые деревья синтаксического анализа) собирается для сообщения пользователям для разъяснения.
Сильной стороной NaLIX является способность решать сложные вопросы, которые могут включать подзапросы, с помощью и корректировкой дерева синтаксического анализа. С другой стороны, использование дерева синтаксического анализа также является слабым местом, поскольку система может отвечать только на те вопросы, которые поддаются синтаксическому анализу.
NaLIR (Интерфейс естественного языка для реляционных баз данных)
NaLIR [35, 36] является дальнейшим развитием NaLIX. Вместо преобразования в XQuery для запроса баз данных XML, NaLIR переводит входной вопрос в SQL и запрашивает реляционные базы данных.NaLIR возвращает пользователю не только результат, но также перефразированную версию вопроса ввода, основанную на переводе.
Основная идея остается той же: проанализировать входной вопрос с помощью Stanford Parser и сопоставить дерево синтаксического анализа с SQL (вместо XQuery). Шаги аналогичны с некоторыми изменениями: на этапе сопоставления фраз дерева синтаксического анализа входного вопроса с компонентами SQL пользователям предлагается пояснить, есть ли неоднозначности. Следующий шаг - это уже не проверка, а корректировка дерева синтаксического анализа таким образом, чтобы оно было действительным.Возможные интерпретации, произведенные этим скорректированным и действительным деревом синтаксического анализа, доставляются пользователям для выбора правильной интерпретации. Последний шаг переводит скорректированное и действительное дерево синтаксического анализа, которое выбрал пользователь, в SQL.
Сильной стороной NaLIR является взаимодействие с пользователем, которое улучшилось еще больше по сравнению с NaLIX. Остается слабая сторона: он сильно зависит от дерева синтаксического анализа.
BioSmart
BioSmart [27] использует синтаксическую классификацию входного вопроса для перевода вопроса на естественном языке на декларативный язык, такой как SQL.Система разделяет входные вопросы на три типа запросов (итеративный, условный или императивный), используя дерево синтаксического анализа входного вопроса, и сравнивает его с шаблонами дерева синтаксического анализа для каждого типа запроса. Например, императивный запрос состоит из глагола (VB), за которым следует объект (NP). Более выразительный и, следовательно, сложный вопрос ввода можно создать, произвольно вложив простые типы запросов.
Подобно Querix, BioSmart использует синтаксический анализатор Stanford для анализа входящего вопроса.Затем система пытается сопоставить получившееся дерево синтаксического анализа с заранее заданными вопросами или с одним из шаблонов запросов (идентификация типа запроса). Как уже упоминалось, возможно, что вопрос состоит из нескольких таких шаблонов, чтобы отразить смысл вопроса. Затем идентифицируются таблицы и возможные объединения, необходимые для вычисления запроса. После этого шаблоны преобразуются в логический запрос с использованием информации о таблицах и объединениях.
По сравнению с другими NLI сильной стороной BioSmart является возможность запрашивать произвольные базы данных.Слабым местом BioSmart является сопоставление с тремя типами запросов: если система не может сопоставить входной вопрос с этими типами запросов, она не может ответить на этот вопрос.
Системы на основе грамматики
В NLI на основе грамматики используется другой подход. Ядром этих систем является набор правил (грамматики), которые определяют вопросы, которые система может понять и ответить на них. Используя эти правила, система может давать пользователям предложения о том, как отвечать на их вопросы во время набора текста.Это помогает пользователям писать понятные вопросы и дает пользователям представление о типах вопросов, которые можно задать. Недостаток этих систем в том, что они сильно зависят от предметной области: правила нужно писать вручную.
Далее мы резюмируем семь основанных на грамматике NLI. Мы решили подробно описать TR Discover [52], потому что он хорошо описан в статье, так что мы можем предоставить примеры для всего процесса, включая правила грамматики. Кроме того, он использует правила, чтобы направлять и помогать пользователям формулировать вопросы.После этого мы резюмируем другие системы, основанные на грамматике, и описываем дельту TR Discover. Различия могут быть весьма значительными, однако все они имеют одну и ту же основу: набор правил.
TR Discover
TR Discover [52] - это система, предоставляющая NLI, которая переводит входной вопрос в форме английского предложения (или фрагмента предложения) в SQL или SPARQL. Он используется либо для реляционных баз данных, либо для онтологий, но не требует онтологии для работы с реляционными базами данных.На этапах перевода TR Discover использует представление логики первого порядка (FOL) в качестве промежуточного языка. Кроме того, он предоставляет автоматические предложения на основе ввода данных пользователем. Есть два типа предложений: автозаполнение и прогноз.
TR Discover помогает пользователям формулировать вопрос с помощью функции автоматического предложения. Например, предположим, что пользователи хотят знать режиссера фильма « бесславных ублюдков, » (Q1). Когда пользователи начнут вводить « p », TR Discover предложит не только « человек, », но и более длинные фразы, такие как « человек, направляющий » (автозаполнение).После выбора (или набора текста) « человек, направляющих », TR Discover снова предложит фразы, например « фильмы, », или даже конкретные фильмы, например « бесславных ублюдков, » (прогноз). Для входного вопроса Q1 входными данными могут быть « человек, направляющий бесславных ублюдков ».
Предложения основаны на взаимосвязях и объектах в наборе данных и используют лингвистические ограничения, закодированные в контекстно-свободной грамматике на основе функций ( FCFG).Грамматика состоит из грамматических правил (G1-3) и лексических статей (L1-2). Для примера мира (и входного вопроса Q1) можно определить следующие правила:
- G1 ::
НП \(\правая стрелка \) N
- G2 ::
НП \(\правая стрелка \) НП ВП
- G3 ::
Вице-президент \(\правая стрелка \) V НП
- L1 ::
N [TYPE = person, NUM = sg, SEM =
] \ (\ rightarrow \) человек - L2 ::
V [TYPE = [человек, фильм, название], SEM =
, TNS = presp] \ (\ rightarrow \) режиссура
Предложения вычисляются на основе идеи синтаксического анализа в левом углу: для данного сегмента запроса он находит все правила грамматики, левый угол которых в правой части соответствует левой стороне лексической записи сегмента запроса.Затем находятся все листовые узлы (лексические записи) в грамматике, которые могут быть достигнуты с помощью соседнего элемента. Например, при вводе « человек » (Q1) лексические записи L1 и L2 обнаруживаются и предоставляются пользователю.
TR Discover использует три шага для перевода английского предложения или фрагмента предложения в запрос SQL или SPARQL. Первый шаг анализирует входной вопрос в представление FOL. При синтаксическом анализе запроса используется FCFG. Для примера ввода токен « person » будет проанализирован лексической записью L1, а токен «, направляющий » будет проанализирован с лексической записью L2.Это приводит к представлению ВОЛС:
x.person (x) \(\правая стрелка \) directMovie (y, x) & type (y, Movie) и label (y, «Бесславные ублюдки»)
Как именно фраза « Inglourious Basterds » сопоставлена с базовыми данными и, следовательно, может использоваться как часть лексической статьи L2, и как она разрешается, Сонг и др. Не объясняют. [52]. Если есть несколько возможностей проанализировать входной вопрос, выбирается первая.
Следующим шагом является преобразование сгенерированного FOL в дерево синтаксического анализа. Анализатор FOL берет грамматику и представление FOL из предыдущего шага и генерирует дерево синтаксического анализа (рис. 12), используя ANTLER для реализации.
Рис. 12Дерево синтаксического анализа для FOL-представления входного вопроса ' человек, направляющий "Бесславные ублюдки" '
На третьем этапе выполняется обход дерева синтаксического анализа по порядку (предоставленный на предыдущем этапе) чтобы преобразовать его в исполняемый запрос SQL или SPARQL.При обходе дерева синтаксического анализа атомарные логические условия и соединители помещаются в стек. После обхода ограничения извлекаются из стека для построения правильных ограничений запроса. Предикаты отображаются в соответствующие им имена атрибутов (SQL) или свойства онтологии (SPARQL).
Сильные стороны TR Discover - это автоматическое предложение и возможность переводить естественный язык на различные языки запросов, такие как SQL и SPARQL, поскольку FOL используется в качестве промежуточного языка.
Слабые стороны TR Discover в том, что квантификаторы (например, Q3: « наибольшее количество ») не могут быть использованы, синонимы не обрабатываются должным образом, а отрицания работают только для SPARQL.
Song et al. [52] предлагают расширить TR Discover системой ранжирования для множественного анализа на первом этапе и улучшить обработку синонимов. Кроме того, они указали на возможность применения журналов запросов пользователей для улучшения автоматических предложений.
Ginseng (поисковая система на естественном языке с управляемым вводом)
Ginseng [5] - это NLI с управляемым вводом для онтологий.Система основана на грамматике, которая описывает как правила синтаксического анализа входных вопросов, так и элементы составления запросов для запросов RDF Data Query Language (RDQL). Грамматика используется, чтобы помочь пользователям формулировать вопросы на английском языке.
В отличие от TR Discover, Ginseng не использует промежуточное представление, и поэтому процесс синтаксического анализа транслируется непосредственно в RDQL. Грамматические правила делятся на две категории: динамических и статических грамматических правил. динамические правила грамматики генерируются из онтологий OWL. Они включают правила для каждого класса, экземпляра, свойства объекта, свойства типа данных и синонимов. Статические правила грамматики состоят из примерно 120, в основном эмпирически построенных, независимых от предметной области правил, которые обеспечивают основные структуры предложений и фразы для входных вопросов. Соглашения об именах, используемые Ginseng, немного отличаются от тех, которые используются TR Discover. Динамические правила Ginseng соответствуют лексическим правилам TR Discover, а статические правила Ginseng состоят из грамматических и лексических правил TR Discover.
Сильной стороной Ginseng являются динамические правила, которые генерируются из онтологии. Это вместе со статическими правилами, не зависящими от предметной области, упрощает адаптацию по сравнению с такими системами, как TR Discover. Слабость заключается в правилах грамматики: они должны охватывать все возможные типы вопросов, которые пользователи хотят задать.
SQUALL (семантический запрос и язык высокого уровня обновления)
SQUALL [17, 18] - это NLI для поиска и обновления хранилища RDF. Он использует стиль грамматик Монтегю (контекстно-свободную порождающую грамматику) в качестве промежуточного языка (аналогично TR Discover) для разделения процесса перевода на две части: перевод вопроса ввода естественного языка на логический язык и перевод логического языка на логический язык. язык запросов.Благодаря этому вторая часть становится проще: логический язык и язык запросов имеют одинаковую семантику и уровень детализации. Грамматика SQUALL состоит из около 120 правил, не зависящих от предметной области.
Перевод в логическую форму выполняется в три этапа. На первом этапе распознаются ключевые слова (этап поиска). Второй шаг - это синтаксический анализ, основанный на нисходящем синтаксическом анализаторе, который питается правилами грамматики. После этого следующий шаг может создать логический язык на основе определения в грамматике.После перевода на логический язык можно сделать перевод на выбранный формальный язык.
Сила SQUALL заключается в том, что он может переводить любой тип входного вопроса, включая агрегаты, отрицания и подзапросы. Слабость SQUALL в том, что пользователи должны знать словарь RDF (например, классы и свойства). Например, входной вопрос Q1 должен быть сформулирован как « Кто является директором Inglourious_Basterds ?»
СРЕДСТВА (Ответ на медицинский вопрос)
СРЕДСТВА [3] - это NLI, в котором используется гибридный подход шаблонов и ML для определения семантических отношений.Он сильно зависит от предметной области и фокусируется на фактических вопросах, выражаемых местоимениями wh и логических вопросах в медицинском подполе, нацеленном на семь медицинских категорий: проблема, лечение, тест, признак / симптом, лекарство, еда и пациент.
Чтобы перевести входной вопрос в SPARQL, MEANS сначала классифицирует входной вопрос по одной из десяти категорий (например, фактоид, список, определение и т. Д.). Если вопрос отнесен к категории «белый» вопрос, Ожидаемый тип ответа (EAT) идентифицируется и заменяется на «ОТВЕТ» в качестве упрощенной формы для следующего шага.Например, EAT входного вопроса Q1 будет « директор ». На следующем этапе MEANS идентифицирует медицинские объекты с помощью классификатора условного случайного поля (CRF) и правил для сопоставления именных фраз с концепциями. Следующий шаг используется для определения семи предопределенных семантических отношений. Аннотатор - это гибридный подход, основанный на наборе вручную построенных шаблонов и классификаторе Support Vector Machine (SVM).
Сила СРЕДСТВА состоит в том, что они могут обрабатывать различные типы вопросов, включая вопросы с более чем одним ожидаемым типом ответа и более чем одной направленностью.Что касается большинства основанных на грамматике NLI, MEANS страдает от ограничений, основанных на правилах, созданных вручную. Включение машинного обучения уменьшает эту проблему, но само машинное обучение требует огромного объема обучения, чтобы его можно было использовать. Кроме того, сравнение (а также отрицание) не принимается во внимание.
AskNow
AskNow [14] использует новую структуру характеризации запроса, устойчивую к перефразированию, которая называется Нормализованная структура запроса (NQS), которая менее чувствительна к структурным изменениям во входном вопросе.Идентификация элементов в NQS сильно зависит от тегов POS. Например, входной вопрос Q1 «» Кто является режиссером «Бесславных ублюдков»? 'будет соответствовать шаблону NQS:
[Wh] [R1] [D] [R2] [I], где [Wh] - вопросительное слово « Who ,» [R1] - вспомогательное отношение » - это , [D] - это класс желания запроса «, директор », [R2] отношение « из », а [I] - это входной класс запроса « Inglourious Basterds .’
Чтобы перевести входной вопрос в SPARQL, AskNow сначала идентифицирует подструктуры, используя теггер POS и распознавание именованных объектов. Затем он помещает подструктуры в соответствующие ячейки в общих шаблонах NQS. После этого тип запроса (набор, логическое значение, ранжирование, количество или значение свойства) определяется на основе желания и белого типа. На следующем этапе желание запроса, входные данные запроса и их отношения будут сопоставлены с КБ. Например, Spotlight можно использовать для сопоставления с DBpedia.В процессе сопоставления AskNow использует синонимы WordNet и библиотеку шаблонов BOA (начальная загрузка).
Сильная сторона AskNow по сравнению с предыдущими системами, основанными на грамматике, заключается в том, что пользователи могут свободно формулировать свои вопросы без ограничений. Кроме того, шаблоны NQS допускают сложные вопросы, которые, например, могут включать подзапросы. Одной из слабых сторон AskNow является то, что он сильно зависит от правильных тегов PoS и ограничивает типы вопросов, которые можно задать.
SPARKLIS
SPARKLIS [19] - это управляемый построитель запросов для SPARQL, использующий естественный язык для лучшего понимания.Он направляет пользователей во время формулировки запросов, предоставляя возможность поиска по концепциям, объектам и модификаторам на естественном языке. Он полагается на правила SPARQL, чтобы гарантировать синтаксически правильные запросы SPARQL все время в течение процесса. Взаимодействие с системой делает формулировку вопроса более ограниченной, медленной и менее спонтанной, но обеспечивает руководство и безопасность с промежуточными ответами и предложениями на каждом этапе. Процесс перевода для SPARKLIS обратный: он переводит возможные запросы SPARQL на естественный язык, чтобы пользователи могли понять свой выбор.
Автозаполнение отличается от предыдущих систем (например, TR Discover и Ginseng): интерфейс отображает три списка, в которых пользователи могут искать концепции, сущности или модификаторы. Чтобы обеспечить полноту ввода данных пользователем, SPARKLIS использует каскад из трех этапов. Первый этап - на стороне клиента, где фильтруется частичный список предложений. Второй этап выполняется, если отфильтрованный список становится пустым, затем предложения пересчитываются путем отправки запроса, включая фильтр пользователей, в конечную точку SPARQL.Последний этап запускается, если список все еще пуст, затем новые запросы снова отправляются в конечную точку SPARQL с использованием полного запроса SPARQL вместо частичных результатов. Вычисляется только ограниченное количество предложений, ранжирование не применяется из-за проблем с масштабируемостью.
Сильной стороной SPARKLIS является также и его слабость: ограниченное руководство пользователей во время процесса формулирования запроса допускает только синтаксически правильные вопросы, но в то же время свобода пользователей ограничена.Кроме того, ограниченное количество предложений имеет негативные последствия, поскольку они могут быть неполными и, следовательно, сделать некоторые запросы недоступными.
GFMed
GFMed [41] - это NLI для биомедицинских связанных данных. Он применяет грамматики, созданные вручную с помощью грамматической основы Footnote 7 (GF). Грамматики GF делятся на абстрактных и конкретных грамматики. Абстрактная грамматика определяет семантическую модель входного языка, а для GFMed она основана на биомедицинской области.Конкретные грамматики определяют синтаксис входного языка, которым является английский и SPARQL. Кроме того, GF поддерживает многоязычные приложения, и поэтому румынский язык включен в GFMed как второй естественный язык.
Чтобы перевести контролируемый ввод естественного языка в SPARQL, GFMed на первом этапе полагается на библиотеки GF для синтаксиса, морфологических парадигм и координации. GFMed охватывает основные элементы SPARQL для поддержки ограничений сроков, агрегатов и отрицаний.Не поддерживаются пути к свойствам, длина которых отличается от 1, необязательный шаблон графа или назначение. Кроме того, включены только операторы равенства и регулярного выражения.
Сильной стороной GFMed является то, что он охватывает основные элементы SPARQL. Кроме того, он вводит второй естественный язык помимо английского, чтобы пользователи могли задавать вопросы. Слабым местом являются грамматики GF, которые зависят от предметной области и ограничивают количество вопросов, которые могут быть заданы пользователями.
Доказательства морфологического состава составных слов с использованием MEG
Abstract
Психолингвистические и электрофизиологические исследования лексической обработки показывают конвергентные доказательства лексического доступа на основе морфем для морфологически сложных слов, который включает раннюю декомпозицию на составляющие их морфемы с последующей некоторой комбинаторной операцией.Учитывая, что как семантически прозрачные (например, парусник), так и семантически непрозрачные (например, пиратские) соединения подвергаются морфологической декомпозиции на ранних этапах лексической обработки, последующие комбинаторные операции должны учитывать разницу во вкладе составляющих морфем в их значение. разные типы слов. В этом исследовании мы используем магнитоэнцефалографию (МЭГ), чтобы определить нейронные основы этой комбинаторной стадии распознавания составных слов английского языка.Данные МЭГ были получены, когда участники выполняли задачу по именованию слов, в которой три типа слов, прозрачные соединения (например, обочина дороги), непрозрачные соединения (например, бабочка) и морфологически простые слова (например, бордель), были сопоставлены с частичным повторением парадигма, в которой интересующее слово было начато одной из составляющих его морфем. Анализ начальной задержки выявил более короткие задержки для наименования составных слов, чем симплексные слова при включении, что дополнительно поддерживает стадию морфологической декомпозиции в лексическом доступе.Анализ ассоциированной активности МЭГ выявил интересующую область, вовлеченную в морфологический состав, левую переднюю височную долю (LATL). Только прозрачные соединения показали повышенную активность в этой области от 250 до 470 мс. Предыдущие исследования с использованием предложений и фраз подчеркнули роль LATL в выполнении вычислений для основных комбинаторных операций. Результаты согласуются с моделями декомпозиции для доступности морфем на ранней стадии обработки и предполагают, что семантика играет роль в объединении значений морфем, когда их состав прозрачен для общего значения слова.
Ключевые слова: соединений, МЭГ, левая передняя височная доля (LATL), наименование слов, морфология, семантическая прозрачность, морфологическая декомпозиция, морфологический состав
1. Введение
Некоторые слова простые, а некоторые - нет. На первый взгляд это звучит как банальная тавтология, но споры о том, хранятся ли мультиморфемные слова просто в виде целой словоформы (Butterworth, 1983; Giraudo and Grainger, 2001) или всегда строятся из их морфемных частей (Taft, 2004). ) был развлекательным, провокационным и спорным в области лексической обработки в течение последних 40 лет.Комплексная модель того, как слова сохраняются и извлекаются, требует понимания того, как связаны форма и значение и как эта связь разворачивается во времени в естественной речи.
Потенциальный контраст между хранением целого слова и хранением морфем впервые обсуждался в классической модели удаления аффиксов (Taft and Forster, 1975), которая предполагала, что лексический доступ включает доступ к основе морфологически сложных слов. Это исследование показало, что псевдосложные слова с реальной основой (например,g., de- juvenate ) потребовалось больше времени, чтобы отклонить в задаче лексического решения (и часто неправильно выбирались как слова), чем псевдосложные слова с реальными префиксами и несуществующими основами (например, de- pertoire ). Это было воспринято как доказательство того, что морфемы были доступны до лексического доступа, и они способствуют извлечению лексического элемента в памяти. При использовании различных парадигм прайминга накопились доказательства в пользу доступности морфем во время лексического доступа (Marslen-Wilson et al., 1994; Растл и Дэвис, 2003; Тафт, 2004). Это привело к появлению моделей обработки, в которых морфологическая декомпозиция является автоматическим и необходимым этапом обработки сложных слов (Rastle et al., 2004). В недавних исследованиях (Fiorentino et al., 2014; Semenza and Luzzatti, 2014) изучались этапы разложения, чтобы увидеть, как значение морфемы интегрируется в значение сложного слова. Результаты электрофизиологии (Fiorentino et al., 2014) выявили большую негативность для лексикализованных соединений (например,g., teacup) и новые соединения (например, tombnote) по сравнению с мономорфемными словами во временном окне 275–400 мс, что указывает на стадию, на которой значения морфем объединяются в английских соединениях. Эти психологические модели дают четкие прогнозы относительно стадий и динамики лексического доступа, но в настоящее время отсутствуют доказательства привязки этих стадий к определенным областям мозга. Это исследование направлено на выявление области, ответственной за состав значений морфем. Исследования из литературы по именованию картинок (Dohmes et al., 2004) предполагает, что на этом этапе должна быть большая активация в обработке семантически прозрачных сложных слов, поскольку они демонстрируют большую концептуальную активацию и конкуренцию лемм в дополнение к эффекту морфологического перекрытия. Следовательно, эта область должна быть чувствительной только к составу сложных слов, значение морфемы которых имеет семантически прозрачное отношение к общему значению по сравнению со сложными словами, морфемы которых не разделяют семантические отношения, непрозрачный .
Один из способов взглянуть на лексическую обработку сложных слов - посмотреть, может ли активация морфологической структуры модулировать доступность сложного слова. Некоторые кросс-модальные исследования прайминга (Marslen-Wilson et al., 1994) показали, что праймирование в лексическом решении между словами, имеющими общий корень, происходило только тогда, когда первичное число и цель имели связанные значения (например, , исход , праймер , исход , но (отдел - нет), в то время как другие исследования (Zwitserlood, 1994) с использованием прайминга с частичным повторением показали, что прайминг не зависит от семантических отношений между праймером и целью.Однако исследования с использованием замаскированного прайминга, парадигмы сублиминального прайминга, в котором простому слову предшествует прямая маска и за ним следует целевое слово (Forster and Davis, 1984), обнаружили, что при манипулировании семантической прозрачностью эффекты облегчения возникали для сложных слов независимо от имеют ли прайм и мишень один и тот же морфологический корень (Longtin et al., 2003; Rastle et al., 2004; Fiorentino and Poeppel, 2007; McCormick et al., 2008). Эти эффекты не проявлялись для морфологически простых слов (например,г., бордель ). Было обнаружено более быстрое лексическое время принятия решений для сложных слов, которые можно сегментировать на существующие морфемы, что означает, что замаскированные простые / немаскированные целевые пары без семантических отношений, такие как угол-кукуруза и бутлег-бут , показали ускоренное распознавание целевых слов величины, неотличимые от пар с семантическими отношениями, такими как очиститель-очиститель и чашка-чай .
Поскольку общепринято, что морфологическая декомпозиция выполняется для каждого сложного слова, которое может быть исчерпывающим образом разобрано на существующие морфемы, исследования визуального распознавания слов должны сместить акцент с декомпозиции на последующие механизмы, задействованные для активации фактического значения сложной цели. слово.Менье и Лонгтин (2007) предположили, что активация слова вступает в игру поэтапно, которые включают по крайней мере одну раннюю стадию морфологической декомпозиции и более позднюю стадию семантической интеграции морфологических частей. Fiorentino et al. (2014) представили доказательства основанного на морфемах пути активации слова, который включает разложение на морфологические составляющие и комбинаторные процессы, действующие на эти представления. Поскольку предыдущие исследования показали, что ранняя декомпозиция, вызванная морфологической структурой, происходит автоматически для прозрачных и непрозрачных слов, разница между этими двумя типами слов может проявиться на более позднем этапе комбинаторных операций.
Другой способ взглянуть на лексическую обработку сложных слов - это посмотреть, как форма отображается на значение. Это очень важно при обработке морфологически сложных слов, чтобы отделить то, как мозг воспринимает прозрачные слова от того, как он воспринимает непрозрачные. Это можно исследовать, посмотрев, как значения морфем складываются в мозгу. Существуют модели общего механизма связывания в построении предложений (Friederici et al., 2000) и в базовой композиции именных фраз (Bemis and Pylkkänen, 2011), которые вовлекают левую переднюю височную долю (LATL) в состав слов во фразы. .В парадигме минимальной композиции Bemis и Pylkkänen (2011) обнаружили, что два составных элемента во фразе прилагательное-существительное (например, красная лодка ) вызывают большую активацию в левой передней височной доле, LATL, примерно на 225 мс, чем два. несоставные элементы (например, xkq boat , случайная последовательность букв и слова). Это было воспринято как доказательство того, что базовая комбинаторная обработка данных поддерживается LATL. В сложных словах есть особый подкласс слов, которые имеют структуру, параллельную существительным фразам, известным как составные слова.Сложные слова обладают уникальным свойством состоять только из свободных морфем (отдельных слов). Сложные слова также различаются по измерению семантической прозрачности , степени, в которой комбинация значений морфем соответствует общему значению слова. Это означает, что мы можем варьировать вклад морфем в композицию значения. Эти свойства делают составные слова отличным кандидатом для исследования морфологического состава сложных слов, поскольку они могут обеспечивать аналогичную структуру для работы, выполняемой на уровне фразы.Эти параллели приводят к тому, что LATL является кандидатом на композицию в пределах слова, и это обеспечивает интересную основу для изучения эффектов внутрилексической семантической композиции как аналога композиции на уровне фразы.
Таким образом, семантически прозрачные составные слова (например, почтовый ящик) должны вызывать большую активность в этой области, чем простые слова, поскольку их значения происходят из состава их морфемных частей, тогда как семантически непрозрачные составные слова (например, бутлег) не должны вызывать большей активности поскольку нет никакой связи между их частями и значениями.В общем, модель сложного распознавания слов потребует, по крайней мере, этих двух этапов обработки: разбора на базовые единицы (декомпозиция) и композиции этих словоформ в сложное значение. Чтобы распаковать эти этапы, мы предлагаем использовать два типа парадигм грунтования: грунтовку с частичным повторением (например, ДОРОГА-обочина), аналогичные парадигмам, используемым в исследованиях замаскированного грунтования, которые будут использоваться для исследования эффектов разложения в соединениях, и прайм с полным повторением (например, ROADSIDE-Roadside), который будет использоваться для исследования композиционных эффектов их морфем.Штрихи условия повторения прайминга использовали для оценки эффекта композиции в отсутствие поведенческой реакции. В этом отношении метод анализа аналогичен принятому Zweig и Pylkkänen (2009), в котором авторы напрямую сравнивают сложные (производные) слова, таким образом стремясь найти эффекты разложения, которые не зависят от прайминга. В этом исследовании используется задача создания именования слов для изучения этих этапов, связанных с лексической обработкой, поскольку она обеспечивает сопоставимые эффекты с задачами лексического принятия решений (Neely, 1991) и не требует пробного заполнения.Эта задача была выполнена, пока активность мозга регистрировалась с помощью МЭГ, чтобы исследовать, есть ли в левой височной доле область, отвечающая за морфологический состав. Это исследование вносит свой вклад в работу по характеристике нейронных основ лексической обработки сложных слов, предоставляя доказательства композиции в составных словах и связывая их с их нейронными коррелятами. Учитывая предшествующую литературу, мы ожидаем найти доказательства разложения для сложных слов, но не для симплексных слов.Это открытие согласуется с литературой по визуальному распознаванию слов, особенно с литературой по замаскированному праймингу, где есть облегчающие эффекты при прайминге морфологически сложных слов, но не морфологически простых слов. Однако мы не ожидаем увидеть это общее преимущество морфологической сложности в составе. Поскольку состав смысла регулируется семантически, мы ожидаем обнаружить влияние композиции на активность мозга только для прозрачных соединений.
2.Материалы и методы
2.1 Участники
Восемнадцать правшей, носителей английского языка в возрасте от 18 до 30 лет, с нормальным или исправленным зрением, все дали информированное согласие и приняли участие в этом эксперименте. Исследование было одобрено Университетским комитетом по деятельности с участием людей (UCAIHS) Нью-Йоркского университета. Данные MEG от трех участников были исключены из-за большого количества отказов от испытаний, вызванных шумовыми помехами (> 25%). Подробности отказа описаны в процедуре.
2.2. Материал
Все стимулы состояли из английских би-морфемных соединений (например, чашка) и морфологически простых существительных (например, шпинат), сопоставленных по длине и поверхностной частоте. Мы манипулировали семантической прозрачностью, включая полностью семантически прозрачные (например, чайная чашка) слова, в которых обе составляющие морфемы имеют семантическое отношение к значению всего соединения, и полностью семантически непрозрачные слова (например, фигня), в которых ни один из составляющих морфемы имеют семантическое отношение к составному значению.
311 английских соединений были собраны из предыдущих исследований (Juhasz et al., 2003; Fiorentino and Poeppel, 2007; Fiorentino and Fund-Reznicek, 2009; Drieghe et al., 2010) и классифицированы с точки зрения семантической прозрачности с помощью Задача семантического родства, выполняемая с помощью инструмента Amazon Mechanical Turk. В этом задании 20 участникам было предложено оценить по шкале от 1 до 7, насколько каждый компонент соединения относится к целому слову. По шкале 1 соответствует несвязанному, а 7 - очень близкому.Каждому участнику случайным образом представили один из компонентов каждого соединения. Соединения классифицировались как семантически непрозрачные (далее непрозрачные ), если сумма баллов их составляющих находилась в интервале 2–6, и как семантически прозрачные (далее прозрачные ), если сумма находилась в интервале 10–14. Например, непрозрачный состав крайний срок получил суммарный рейтинг 3,76, при этом мертвых дали рейтинг прозрачности 1.44 и строка , что дает рейтинг 2.32. Точно так же составной кукольный домик получил суммарную оценку 11,79, где кукла внесла рейтинг прозрачности 6,47, а дом дал оценку 5,32. Для каждого типа слова было выбрано 60 словосочетаний. Этот метод нормирования семантической прозрачности соответствовал методам, использованным в упомянутых предыдущих исследованиях. Морфологически простые слова (далее simplex : например, шпинат) были объединены из Rastle et al.(2004) и English Lexicon Project отбирали слова, закодированные на наличие только одной морфемы (Balota et al., 2007). Простые слова (например, бордель ) были выбраны так, чтобы они имели неморфологическую связь формы с их простыми числами (например, бульон ). Кроме того, эти слова были ограничены и выбраны таким образом, чтобы простое слово нельзя было разбить на более мелкие части без создания недопустимых морфем.
2.3. Дизайн
Три разных типа слов были противопоставлены в двух условиях прайминга: полное повторение и частичное (составляющее) повторение (см. Таблицу).Для условия повторного прайминга в качестве прайма и мишени использовали одно и то же соединение (например, чашка TEACUP). Для прайминга с частичным повторением мы использовали первый компонент соединения в качестве праймера (например, чайную чашку TEA). Для симплексного условия неморфологическая родственная форма использовалась в качестве составляющей в условии частичного повторения прайминга (например, SPIN-шпинат). Эти два условия прайминга были объединены для управления условиями, в которых прайм не имел семантического отношения к цели (например,г., DOORBELL-чашка; ДВЕРЬ-чашка).
Таблица 1
Прозрачный | Непрозрачный | Симплекс | ||||
---|---|---|---|---|---|---|
Prime | Целевой
| Prime | Target | |||
Control | Дверной звонок | Teacup | Heirloom | Hogwash | Brothel | Spinach |
Шпинат | Шпинат | |||||
Control | Дверь | Чашка | Наследник | Hogwash | Бульон | Шпинат |
Частичное повторение | Чай | Чай | ясеньОтжим | Шпинат |
2.4. Процедура
Все участники прочитали все задания во всех условиях (всего 720), которые были разделены на три списка по 240 слов и рандомизированы в каждом списке. Порядок представления списков был сбалансирован между испытуемыми. Экспериментальной задачей было наименование слов: испытуемым предлагались пары слов, и их просили прочитать вслух второе слово каждой пары. Стимулы были представлены белым шрифтом Courier размером 30 пунктов на сером фоне с помощью PsychToolbox (Brainard, 1997).Каждое испытание начиналось с предъявления фиксирующего креста, затем штриховки, затем мишени. Каждая из этих визуальных презентаций была представлена в течение 300 мс с последующим пропуском 300 мс (см. Рисунок). Мы записали начальную латентность речи и высказывания каждого испытуемого для поведенческого анализа.
Схема эксперимента .
Перед экспериментом форма головы каждого участника была оцифрована с использованием системы Polhemus Fastscan вместе с пятью точками индикатора положения головы, которые используются для совместной регистрации положения головы относительно датчиков MEG во время сбора данных.Электромагниты, прикрепленные к этим точкам, локализуются после того, как участники лежат внутри массива датчиков МЭГ, что обеспечивает совместную регистрацию систем координат головы и датчика. Форма головы используется во время анализа для совместной регистрации головы на МРТ участников. Половине участников МРТ не проводились; поэтому мы масштабировали общий эталонный мозг, который предоставляется в FreeSurfer, чтобы он соответствовал размеру голов этих участников.
Во время эксперимента участники оставались лежать в комнате с магнитной защитой, а реакция их мозга контролировалась градиентометрами MEG.Экспериментальные элементы проецировались на экран, чтобы участник мог прочитать и выполнить задание. Данные МЭГ были собраны с использованием аксиальной системы градиентометра для всей головки с 157 каналами и тремя опорными каналами (Канадзавский технологический институт, Ноноичи, Япония). Запись проводилась в режиме постоянного тока, то есть без фильтра верхних частот, с фильтром нижних частот 300 Гц и режекторным фильтром 60 Гц.
2,5. Анализ
Мы исследовали латентность начала, время реакции на наименование слова, чтобы оценить эффекты морфологического разложения на основе Fiorentino and Poeppel (2007).Поскольку время реакции чувствительно к лексическим свойствам слов (Fiorentino and Poeppel, 2007), составные слова должны обрабатываться быстрее при праймировании, чем симплексные слова, из-за остаточной активации ранее активированных морфем. Недекомпозиционный счет не предсказывает никаких различий из-за структуры слова, если слова правильно сопоставлены для соответствующих свойств всего слова. Таким образом, начальная задержка может использоваться, чтобы понять, есть ли эффект разложения. Поведенческие данные были проанализированы с использованием традиционного дисперсионного анализа для типа слова с помощью модели взаимодействия с частичным повторением.Прайминг с частичным повторением в задачах лексического решения использовался, чтобы продемонстрировать доступность морфем в сложных словах (Rastle et al., 2004). Подобные поведенческие эффекты были также обнаружены при использовании именования слов (см. Neely, 1991 для сравнительного обзора лексического решения и именования слов). Таким образом, доказательства эффектов разложения можно наблюдать во время реакции, чтобы говорить, , задержка начала . Предыдущие исследования привели к предсказанию, что должен быть стимулирующий эффект более короткой задержки начала из-за прайминга для соединений по сравнению с их эквивалентами из симплексных слов, поскольку сегментация на морфемы приводит к более быстрому доступу к сложному слову.
После сбора данных мозга мы применили метод непрерывно скорректированных наименьших квадратов (Adachi et al., 2001), процедуру снижения шума в программном обеспечении MEG160 (Yokogawa Electric Corporation и Eagle Technology Corporation, Токио, Япония), которая вычитает шум из градиентометры МЭГ основаны на измерениях шума в опорных каналах, расположенных вдали от головы. Данные подвергались полосовой фильтрации в диапазоне 1–40 Гц с использованием БИХ-фильтра. Запись всего эксперимента была разделена на представляющие интерес эпохи, от -200 мс до до 600 мс после визуального отображения основного слова.Мы отклонили испытания, в которых максимальная амплитуда размаха превышала предел 4000fT, и уравняли испытания, чтобы иметь равное количество испытаний для каждого условия и для каждого типа слова для правильного сравнения. Средний процент отклоненных испытаний среди субъектов составлял 1,9%, а для каждого типа слова: 1,3% для непрозрачных, 2,2% для симплексных, 1,8% для прозрачных. Каналы датчиков были отмечены как плохие и отбрасывались для каждого испытуемого, если размах отклонения канала превышал 10%.
Матрица ковариации шума была вычислена для каждого участника с использованием процедуры автоматического выбора модели (Engemann and Gramfort, 2015) на случайном выборе базовых эпох (120 эпох) от -200 мс до начала представления креста фиксации. .Для участников с МРТ кортикальные реконструкции были сгенерированы с использованием FreeSurfer, в результате чего пространство источника составляло 5124 вершины (CorTechs Labs Inc., Ла-Хойя, Калифорния и MGH / HMS / MIT Центр биомедицинской визуализации Athinoula A. Martinos, Чарльстон, Массачусетс). Метод модели граничных элементов (БЭМ) использовался для моделирования активности в каждой вершине для расчета прямого решения. Обратное решение было сгенерировано с использованием этой прямой модели и матрицы ковариации шума и вычислено с ограничением фиксированной ориентации, требующим, чтобы дипольные источники были перпендикулярны кортикальной поверхности.Затем данные датчиков для каждого испытуемого проецировались в их индивидуальное исходное пространство с использованием оценки минимальной нормы с корковыми ограничениями (все анализы проводились с использованием MNE-Python: Gramfort et al., 2013, 2014), в результате чего получались нормализованные по шуму карты динамических статистических параметров. (dSPM: Dale et al., 2000).
Для этого анализа наш дизайн (таблица) сводится к простому сравнению между составными (например, TEACUP) и симплексными словами (например, SPINACH) одинакового размера, которые служили простыми числами в условии повторения (например,g., TEACUP-teacup), описанный выше в разделе «Дизайн». Поскольку для этого анализа мы используем нейрофизиологические данные, относящиеся к молчаливому чтению слов, которые служили простыми числами, поведенческих данных для этих слов нет. Таким образом, мы также избегаем артефактов, связанных с произвольными движениями, которые могут поставить под угрозу анализ эффектов, представляющих интерес для исследования (Hansen et al., 2010).
Таблица 2
Типы слов | Примеры |
---|---|
Непрозрачный | Hogwash |
Прозрачный | Чашка для чая |
Simplex (контроль) |
Мы исследовали нервную активность, локализованную во всей левой височной доле.Этот регион был выбран на основе композиционных эффектов, обнаруженных в предложениях (Friederici et al., 2000) или фразах прилагательное-существительное (Bemis and Pylkkänen, 2011). Чтобы проверить, была ли повышена активность соединений в этой области, был проведен тест t на остаточную активацию типа составного слова (непрозрачный, прозрачный) после удаления активации из симплексного контрольного слова от 100 до 600. мс после появления стимула. Карта значений p мозга была создана для временных рядов, а пространственно-временные кластеры были идентифицированы для смежных пространственно-временных кластеров, у которых значение p было меньше 0.05 и длительностью не менее 10 мс. Значения t были суммированы для тех точек в кластере, которые соответствовали этим критериям. Затем сначала был выполнен тест непараметрической перестановки путем перетасовки меток типов слов, а затем вычисления кластеров, образованных новыми метками. Распределение, сгенерированное из 10 000 перестановок, было вычислено путем вычисления значимых уровней наблюдаемого кластера. Скорректированное значение p было определено из процента кластеров, которые были больше, чем исходный вычисленный кластер (Maris and Oostenveld, 2007).Эти тесты были рассчитаны с использованием пакета статистического анализа данных MEG, Eelbrain (https://pythonhosted.org/eelbrain/).
4. Обсуждение
Анализ разных типов слов по отдельности выявил очень последовательные доказательства того, что существует разница в том, как простые и сложные слова обрабатываются в мозгу. Поведенческие результаты подтвердили, что существует стадия лексического доступа, которая чувствительна к морфологическим формам в сложных словах, и продемонстрировали, что эти эффекты также могут наблюдаться в других модальностях тестирования, а именно, в именовании слов.Эффект начального латентного взаимодействия, когда составные слова создавались быстрее, чем морфологически простые слова, когда они начинались с их составной морфемы, в значительной степени согласуется с результатами в литературе по замаскированному праймингу по распознаванию слов и дает дополнительные доказательства того, что в лексическом доступе есть стадия декомпозиции где сложные слова разбираются на их морфемы (Rastle et al., 2004; Taft, 2004; Morris et al., 2007; McCormick et al., 2008; Fiorentino and Fund-Reznicek, 2009).Операция синтаксического анализа происходит независимо от семантических отношений между составляющими морфемами и их сложным словом. Поскольку ранняя активация составляющих посредством морфологического разложения происходит независимо от семантической прозрачности, то, что отличает прозрачное и непрозрачное соединение, должно происходить, таким образом, на более поздней стадии морфемического состава. Повышенная активность прозрачных соединений в передней височной доле с 250 до 470 мс свидетельствует о стадии лексического доступа, на которой значения морфемы играют роль в доступе к общему значению слова.Bemis и Pylkkänen (2011) показывают комбинаторные эффекты в LATL для прилагательных слов примерно через 225 мс после предъявления критического слова. Разницу во времени можно объяснить разными моментами времени, когда мы фиксируем начало действия стимула. В Bemis and Pylkkänen (2011) начало совпадает с появлением существительного лодка во фразе красная лодка , тогда как в нашем исследовании критическим стимулом является весь составной парусник .
Повышенная активация в задней височной доле прозрачных соединений с 430 до 600 мс, которая следует за активностью в LATL, согласуется с тем фактом, что эта область участвует в лексическом поиске (Hickok and Poeppel, 2007; Lau et al., 2008). Lau et al. (2008) предположили, что задняя область височной доли является лучшим кандидатом для лексического хранения слов. Поскольку LATL отвечает за составление значения составляющих морфем, задняя височная доля будет отвечать за извлечение информации из хранимого в ней лексико-семантического представления. Эта область также участвует в преобразовании звука в значение (Binder et al., 2000), которое включает поиск фонологической информации. Это исследование согласуется с моделями декомпозиции из литературы по визуальному распознаванию слов и обеспечивает нейронную основу для этапа лексического доступа, участвующего в композиции значения в составных словах, тем самым помогая распутать когнитивные процессы, которые нечеткие, когда время реакции является единственной мерой. .Объединяя результаты психолингвистических исследований с записями МЭГ активности мозга, полученные результаты предполагают, что распознавание соединений включает в себя отдельные стадии: стадию декомпозиции, которая не зависит от семантики, и стадию композиции, которая регулируется семантикой. Мы показали, что ход активации различается по сложности слова и семантической прозрачности.
Парсинг всего в JavaScript с помощью алгоритма Эрли | by Gajus Kuizinas
Позвольте мне начать с того, что я был удивлен, насколько легко было написать грамматику для синтаксического анализатора Эрли.Я использую регулярные выражения более десяти лет. И я привык разбирать вещи с помощью регулярных выражений. Он хрупкий, не всегда возможен и т. Д. Но он быстрый и по большей части служит своей цели.
Знакомство с алгоритмами синтаксического анализа навсегда изменило это отношение.
Наслаждайтесь путешествием 😉Это длинная статья. Поэтому я использовал мем He Man, чтобы развлекать вас на протяжении всего путешествия. Обещаю вам всемогущее оружие в конце статьи.
Я работаю над декларативным парсером HTML.Синтаксис парсера зависит от настраиваемого DSL, который является расширением спецификации селектора CSS3.
Вот пример манифеста парсера, используемого для объявления того, что нужно анализировать, и того, как проверять и форматировать полученные данные:
селектор: тело
свойства:
заголовок: заголовок
статей:
селектор: статья {0,}
свойства:
тело: .body :: property (innerHTML)
сводка: .body p {0,} [0]
imageUrl: img :: attribute (src)
title: .title :: text () :: test (/ foo /) :: format (upperCase)
Там происходит множество вещей, которые не являются частью спецификации CSS:
Мне нужен был способ разобрать это.
Моей первой мыслью было использование регулярных выражений. Фактически, я использовал регулярные выражения для написания прототипа парсера. В конце концов, на ранних этапах разработки программы вам нужно иметь возможность быстро создать прототип решения; стадия прототипа - не время, чтобы задумываться о крайних случаях.
Это не означает, что регулярное выражение нельзя использовать в качестве синтаксического анализатора. Регулярные выражения можно использовать для синтаксического анализа регулярных языков; Селекторы CSS не зависят от контекста.
Между прочим, если термины «контекстно-свободный» или «регулярный язык» не имеют особого смысла, я рекомендую прочитать «Истинная сила регулярных выражений» (прочтение займет 5 минут).
Однако для производственных выпусков мне потребовался строгий расширяемый синтаксический анализатор.
Я начал искать парсеры в JavaScript и нашел Jison и PEG.js. Однако ни один из алгоритмов не поддерживает левую рекурсию. Мне нужен синтаксический анализатор, поддерживающий левую рекурсию!
Акулоподобный танк с мощными челюстями .Я не шучу - я даже не знал, что такое левая рекурсия, на момент принятия этого решения. Однако мне показалось странным, что было подчеркнуто, что эти алгоритмы его не поддерживают.Тем не менее, это была хорошая догадка - как я узнал позже, левая рекурсия позволяет сохранить грамматику синтаксического анализатора простой и может быть намного более производительной.
Короче говоря, на второй странице поиска Google по запросу «JavaScript parser» я нашел http://nearley.js.org/, реализацию алгоритма синтаксического анализа Эрли.
Автор описывает это как:
Парсеры Earley великолепны, потому что они будут разбирать все, что вы им дадите. В зависимости от указанного алгоритма популярные парсеры, такие как lex / yacc, flex / bison, Jison, PEGjs и Antlr, будут ломаться в зависимости от заданной вами грамматики.И под разрывом я подразумеваю бесконечные циклы, вызванные левой рекурсией, сбоями или упорным отказом от компиляции из-за «ошибки сдвига-уменьшения».
- Лучше Эрли, чем никогда (http://hardmath223.github.io/earley.html)
Это звучало как навык, которому я хочу научиться.
Кому нужны все эти другие парсеры, когда есть He-Man.Итак, я продолжил читать.
Установите пакет nearley
.
$ npm install nearley
nearley
состоит из основного пакета (API парсера) и нескольких программ CLI:
$ ls -1./node_modules/.bin
nearley-railroad
nearley-test
nearley-unparse
nearleyc
Это следующие программы:
Чтобы сделать эти программы доступными для вашей оболочки, добавьте
./node_modules/.bin
в свою$ PATH
(экспорт PATH =. / Node_modules / .bin: $ PATH
) или установитеnearley
с опцией--global
.
Мы будем использовать только nearleyc
и nearley-test
.
Синтаксическому анализатору требуется грамматика для анализа ввода.
Алгоритм Эрли анализирует строку на основе грамматики в форме Бэкуса-Наура (BNF). Грамматика BNF состоит из набора производственных правил , которые являются расширениями нетерминалов .
Грамматика для синтаксического анализа ввода «1 + 2 + 3»:
выражение -> «1 + 2 + 3»
С точки зрения непрофессионала эта грамматика говорит: сопоставьте «1 + 2 + 3» как «выражение» .
Нетерминал - это конструкция языка.Нетерминал имеет имя (, выражение
) и список из производственных правил. Производственное правило определяет, что должно соответствовать. Производственное правило состоит из ряда других нетерминалов или строк ( 1 + 2 + 3
- производственное правило, состоящее из одного терминала).
Примечание:
выражение
- произвольное имя. Не имеет смыслового значения.
Чтобы проверить это, скомпилируйте грамматику, используя nearleyc
:
$ cat << 'EOF'>./grammar.ne
выражение -> "1 + 2 + 3"
EOF
$ nearleyc ./grammar.ne --out ./grammar.js
Укажите nearley-test
использовать полученное значение ./grammar. js
для синтаксического анализа ввода:
nearley-test ./grammar.js --input '1 + 2 + 3'
Длина таблицы: 6
Количество синтаксических анализов: 1
Диаграммы синтаксического анализа
Диаграмма: 0
0: {выражение → ● expression $ string $ 1}, from: 0
1: {expression $ string $ 1 → ● "1" "+" "2" "+" "3"}, from: 0Chart: 1
0: {выражение $ string $ 1 → "1" ● "+" "2" "+" "3"}, от: 0Chart: 2
0: {выражение $ string $ 1 → "1" "+" ● "2" "+" "3" }, от: 0Chart: 3
0: {выражение $ string $ 1 → "1" "+" "2" ● "+" "3"}, from: 0Chart: 4
0: {выражение $ string $ 1 → "1 "" + "" 2 "" + "●" 3 "}, от: 0Chart: 5
0: {выражение $ string $ 1 →" 1 "" + "" 2 "" + "" 3 "●}, от: 0
1: {выражение → выражение $ string $ 1 ●}, от: 0Результаты анализа:
[['1 + 2 + 3']]
Ура! наша программа проанализировала строковый литерал «1 + 2 + 3».
Важно понимать вывод nearley-test
, потому что это инструмент, который вы будете использовать для отладки грамматик.
Эрли работает, создавая таблицу частичного синтаксического анализа, то есть n-й столбец таблицы содержит все возможные способы синтаксического анализа s [: n]
, первых n
символов s
.
Диаграмма: 0
0: {выражение → ● выражение $ строка $ 1}, от: 0
1: {выражение $ строка $ 1 → ● "1" "+" "2" "+" "3"}, от: 0
В приведенном выше примере «Диаграмма: 0» является первым столбцом.Он показывает, что у нас есть одно нетерминальное выражение
, которое может быть равно expression $ string $ 1
.
Насколько я понимаю,
выражение $ string $ 1
- это просто временная переменная, используемая для представления терминальных структур, чтобы избежать их повторения. Подробнее об этом позже.
•
- маркер, используемый для обозначения глубины анализа. На данный момент мы находимся в начале строки.
По мере продвижения мы продолжаем сопоставлять терминальный символ за символом.
Диаграмма: 1
0: {выражение $ строка $ 1 → "1" ● "+" "2" "+" "3"}, от: 0 Диаграмма: 2
0: {выражение $ строка $ 1 → "1" " + "●" 2 "" + "" 3 "}, от: 0Chart: 3
0: {выражение $ string $ 1 →" 1 "" + "" 2 "●" + "" 3 "}, от: 0Chart: 4
0: {выражение $ string $ 1 → "1" "+" "2" "+" ● "3"}, from: 0Chart: 5
0: {выражение $ string $ 1 → "1" "+" "2 "" + "" 3 "●}, от: 0
Если совпадает весь терминал, программа создает токен для сопоставления.
1: {выражение → выражение $ строка $ 1 ●}, от: 0 Результаты анализа:
[['1 + 2 + 3']]
Что это за слово? Используйте Word Type, чтобы узнать!
К сожалению, с текущей базой данных, в которой работает этот сайт, у меня нет данных о том, какие значения ~ term ~ используются чаще всего.У меня есть идеи, как это исправить, но мне нужно найти источник "чувственных" частот. Надеюсь, приведенной выше информации достаточно, чтобы помочь вам понять часть речи ~ term ~ и угадать его наиболее распространенное использование.
Тип слова
Для тех, кто интересуется небольшой информацией об этом сайте: это побочный проект, который я разработал во время работы над описанием слов и связанных слов. Оба этих проекта основаны на словах, но преследуют гораздо более грандиозные цели.У меня была идея для веб-сайта, который просто объясняет типы слов в словах, которые вы ищете - точно так же, как словарь, но сосредоточенный на части речи слов. И так как у меня уже была большая часть инфраструктуры с двух других сайтов, я подумал, что для ее запуска и работы не потребуется много работы.
Словарь основан на замечательном проекте Wiktionary от Викимедиа. Сначала я начал с WordNet, но затем понял, что в нем не хватает многих типов слов / лемм (определителей, местоимений, сокращений и многого другого).Это побудило меня исследовать словарь Вебстера издания 1913 года, который сейчас находится в открытом доступе. Однако после целого дня работы над его преобразованием в базу данных я понял, что было слишком много ошибок (особенно с тегами части речи), чтобы это было жизнеспособным для Word Type.
Наконец, я вернулся к Викисловарь, о котором я уже знал, но избегал, потому что он неправильно структурирован для синтаксического анализа. Именно тогда я наткнулся на проект UBY - удивительный проект, который требует большего признания.Исследователи проанализировали весь Викисловарь и другие источники и собрали все в один унифицированный ресурс. Я просто извлек записи из Викисловаря и закинул их в этот интерфейс! Так что работы потребовалось немного больше, чем ожидалось, но я рад, что продолжил работать после пары первых промахов.
Особая благодарность разработчикам открытого исходного кода, который использовался в этом проекте: проекту UBY (упомянутому выше), @mongodb и express.js.
В настоящее время это основано на версии викисловаря, которой несколько лет.Я планирую в ближайшее время обновить его до более новой версии, и это обновление должно внести множество новых смысловых значений для многих слов (или, точнее, леммы).
Google Ngram Viewer
Что делает программа просмотра Ngram?
Когда вы вводите фразы в программу просмотра Google Книг Ngram, отображается график, показывающий, как эти фразы встречаются в корпусе книг (например, «Британский английский», «Английская художественная литература», «Французский») вместо выбранных годы. Давайте посмотрим на пример графика:
Здесь показаны тенденции в трех граммах с 1960 по 2015 год: «питомник школа »( 2-грамма или биграмма ),« детский сад » ( 1-грамм или униграмма ), и "уход за детьми" (другой биграмма).Ось Y показывает следующее: из всех содержащихся биграмм в нашей выборке книг, написанных на английском языке и изданных в США Штаты, какой процент из них составляют «детские сады» или «детские сады»? Какой процент из всех униграмм «детский сад»? Здесь вы можете видеть, что использование фразы «уход за детьми» начало расти. в конце 1960-х, обогнав "детский сад" примерно в 1970 году, а затем "детский сад" около 1973 года. Его пик пришелся на период вскоре после 1990 года. с тех пор неуклонно падает.
(Интересно, что результаты заметно отличаются, когда корпус переведен на британский английский.)
Вы можете навести указатель мыши на линейный график для диаграммы, которая выделяет ее. С участием щелкнув левой кнопкой мыши по линейному графику, вы можете сосредоточиться на конкретной диаграмме, затемнение других диаграмм на диаграмме, если таковые имеются. Далее слева щелкнув по другим линейным графикам на диаграмме, несколько графиков могут быть сосредоточенным на. Вы можете дважды щелкнуть любую область диаграммы, чтобы восстановить все нграммы в запросе.
Вы также можете указывать подстановочные знаки в запросах, искать словосочетания, выполнять поиск без учета регистра, искать определенные части речи или складывать, вычитать и делить диаграммы.Подробнее о них в разделе «Расширенное использование».
Расширенное использование
Некоторые функции Ngram Viewer могут понравиться пользователям, которые хотят копать немного глубже в использовании фразы: поиск по шаблону , поиск перегиба , поиск без учета регистра , тегов частей речи и композиций ngram .
Поиск по шаблону
Когда вы помещаете * вместо слова, Ngram Viewer отображает десять лучших замен.Например, чтобы найти самые популярные слова после "University of", введите "University of *".
Вы можете щелкнуть правой кнопкой мыши любую из заменяющих диаграмм, чтобы свернуть их все в исходный запрос с подстановочными знаками, в результате чего будет получена годовая сумма замен. Последующий щелчок правой кнопкой мыши расширяет запрос с подстановочными знаками обратно на все замены. Обратите внимание, что Ngram Viewer поддерживает только одно * на грамм.
Обратите внимание, что десять лучших замен рассчитываются для указанного временного диапазона.Поэтому вы можете получить разные замены для разных лет. Мы отфильтровали знаки препинания из первой десятки списка, но для слов, которые часто начинаются или заканчиваются предложениями, вы можете увидеть один из ограничивающих символов предложения (_START_ или _END_) в качестве одной из замен.
Поиск перегиба
Перегиб - это модификация слова для представления различных грамматических категорий, таких как аспект, падеж, пол, настроение, число, лицо, время и голос. Вы можете искать их, добавляя _INF к ngram.Например, поиск «book_INF a hotel» отобразит результаты для «книга», «забронировано», «книги» и «бронирование»:
Щелчок правой кнопкой мыши по любому перегибу сворачивает все формы в их сумму. Обратите внимание, что Ngram Viewer поддерживает только одно ключевое слово _INF на запрос.
Предупреждение: Вы не можете свободно смешивать поиск с использованием подстановочных знаков, флексию и поиск без учета регистра для одной конкретной ngram. Однако вы можете выполнить поиск с помощью любой из этих функций для отдельных ngram в запросе: «book_INF a hotel, book * hotel» - нормально, а «book_INF * hotel» - нет.
Поиск без учета регистра
По умолчанию Ngram Viewer выполняет запросов с учетом регистра, поиска: использование заглавных букв имеет значение. Вы можете выполнить поиск без учета регистра, установив флажок «без учета регистра» справа от поля запроса. Затем средство просмотра Ngram отобразит сумму наиболее распространенных вариантов без учета регистра по годам. входного запроса. Вот две нграммы без учета регистра, «Фитцджеральд» и «Дюпон»:
Щелчок правой кнопкой мыши по любой годовой сумме приводит к расширению до наиболее распространенных вариантов без учета регистра.Например, щелчок правой кнопкой мыши на «Dupont (All)» приводит к следующим четырем вариантам: «DuPont», «Dupont», «duPont» и «DUPONT».
Теги части речи
Рассмотрим слово tackle , которое может быть глаголом ("выполнить проблема ") или существительное (" рыболовные снасти "). Вы можете различать эти разные формы, добавив _VERB или _NOUN:
Полный список тегов выглядит следующим образом:
_НЕТ_ | Эти теги могут быть автономными (_PRON_) или могут быть добавлены к слову (she_PRON) | ||
_VERB_ | |||
_ADJ_ | прилагательное | ||
_ADV_ | наречие42 | наречие42 | местоимение |
_DET_ | определитель или артикль | ||
_ADP_ | сложение: предлог или послелог | ||
_NUM_ | числовое значение | ||
_CONJ_ | конъюнкция | частица | |
_ROOT_ | корень дерева синтаксического анализа | Эти теги должны быть автономными (например,г., _START_) | |
_START_ | начало предложения | ||
_END_ | конец предложения |
Поскольку теги части речи не должны прикрепляться к определенным словам, вы можете использовать тег DET для поиска читать книгу , прочитал книгу , прочитал эту книгу , прочитал эту книгу , и так далее:
Если вы хотите узнать, каковы наиболее распространенные детерминаторы в этом контексте, вы можете комбинировать подстановочные знаки и теги части речи в read * _DET book :
Чтобы получить все различные склонения слова , книга , за которыми следовали СУЩЕСТВИТЕЛЬНОЕ в корпусе можно выдать запрос book_ INF _NOUN_:
Наиболее частые теги части речи для слова можно получить с помощью функции подстановки.Рассмотрим запрос cook_ * :
Ключевое слово перегиба также можно комбинировать с тегами части речи. Например, рассмотрим запрос готовить _INF, готовить _VERB_INF ниже, который отделяет от словесного смысла слово «повар»:
Ngram Viewer помечает границы предложений, позволяя идентифицировать нграммы в начале и конце предложения с помощью тегов START и END:
Иногда полезно думать о словах с точки зрения зависимостей а не шаблоны.Допустим, вы хотите знать, как часто вкусно модифицирует десерт . То есть вы хотите количество упоминаний о вкусных замороженных десертах , хрустящих, вкусных десерт , вкусный, но дорогой десерт и все остальные случаи, когда слово вкусно применяется к десерт . Для этого Ngram Viewer предоставляет отношения зависимости с оператор =>:
У каждого проанализированного предложения есть _ROOT_. в отличие от других теги, _ROOT_ не означает конкретное слово или позицию в предложении.Это корень дерева синтаксического анализа, построенного анализ синтаксиса; вы можете думать об этом как о заполнителе того, что основной глагол предложения - модифицирующий. Итак, вот как определить как часто will был главным глаголом предложения:
Приведенный выше график будет включать предложение Ларри будет решать. , но не Ларри сказал, что он примет решение , так как will не является основным глаголом этого предложения.
Зависимости можно комбинировать с помощью подстановочных знаков.Например, рассмотрим запрос drink => * _ NOUN ниже:
Теги "чистой" части речи могут свободно смешиваться с обычными словами в 1, 2, 3, 4 и 5 граммах (например, тост _ADJ_ или _DET_ _ADJ_ тост).
Составы Ngram
Ngram Viewer предоставляет пять операторов, которые можно использовать для объединения нограммы: +, -, /, * и:.
+ | Суммирует выражения с обеих сторон, что позволяет объединить несколько временных рядов ngram в один. |
- | Вычитает выражение справа из выражения слева, давая вам возможность измерить одну грамм относительно другой. Поскольку пользователи часто хотят искать фразы с дефисом, ставьте пробелы по обе стороны от знака -. |
/ | Делит выражение слева на выражение справа, что полезно для изоляции поведения одной nграммы по отношению к другой. |
* | Умножает выражение слева на число справа, что упрощает сравнение диаграмм с очень разными частотами.(Обязательно заключайте всю nграмму в круглые скобки, чтобы * не интерпретировалось как подстановочный знак.) |
: | Применяет nграмму слева к корпусу справа, позволяя сравнивать nграммы в разных корпусах. . |
Ngram Viewer попытается угадать, применять ли эти поведение. Вы можете использовать круглые скобки, чтобы заставить их включиться, и квадрат скобки, чтобы отогнать их. Пример: и / или будет разделите и на или ; для измерения использования фраза и / или , используйте [и / или].И благонамеренные будут искать фраза из лучших побуждений ; если вы хотите вычесть смысл из хорошо, использовать (из лучших побуждений).
Чтобы продемонстрировать оператор +, вот как вы можете найти сумму из game , sport и play :
При определении того, писали ли люди больше о вариантах выбора из лет, ты мог сравните выбор , выбор , вариант , и альтернатива , определяющая формы существительных, чтобы избежать формы прилагательного (e.г., отборный деликатес , альтернатива музыка ):
Вычитаниенограмм дает вам простой способ сравнить один набор нограмм с другим:
Вот как вы можете комбинировать + и /, чтобы показать, как слово яблочное пюре расцвело за счет яблочного соуса :
Оператор * полезен, когда вы хотите сравнить диаграммы с разными частотами, например скрипка и более эзотерический терменвокс :
Оператор выбора: corpus позволяет сравнивать графики в разные языки, или американский или британский английский (или художественная литература), или между версиями отсканированных нами книг 2009, 2012 и 2019 гг.Вот чат на английском и та же униграмма на французском:
Когда мы создали исходный корпус Ngram Viewer в 2009 году, наши OCR было не так хорошо, как сегодня. Это было особенно очевидно в английский до 19-го века, где удлиненная медиальная часть (ſ) была часто интерпретируется как f , поэтому часто читается best как после . Вот свидетельство улучшений, которые мы сделали с тех пор, как затем с помощью оператора корпуса для сравнения версий 2009, 2012 и 2019 годов:
Сравнивая художественную литературу со всем английским, мы видим, что из мастера в целом на английском языке в последнее время набирают по сравнению с использованием в художественной литературе:
Корпуса
Ниже приведены описания корпусов, которые можно искать с помощью Программа просмотра Google Книг Ngram.Все корпуса были сгенерированы в июле. 2009 г., июль 2012 г. и февраль 2020 г .; мы обновим эти корпуса как нашу книгу сканирование продолжается, и обновленные версии будут иметь отчетливые постоянные идентификаторы. Книги с низким качеством распознавания текста и сериалы были исключены.
Неофициальное название корпуса | стенография | Постоянный идентификатор | Описание |
Американский английский 2019 | eng_us_2019 | googlebooks-eng-us-20200217 | Книги, изданные в США преимущественно на английском языке. |
Американский английский 2012 | eng_us_2012 | googlebooks-eng-us-all-20120701 | |
Американский английский 2009 | eng_us_2009 | googlebooks-eng-us-all-200 | |
Британский английский 2019 | eng_gb_2019 | googlebooks-eng-gb-20200217 | Книги, изданные в Великобритании преимущественно на английском языке. |
Британский английский 2012 | eng_gb_2012 | googlebooks-eng-gb-all-20120701 | |
Британский английский 2009 | eng_gb_2009 | googlebooks-eng-gb-all-200 | |
Английский 2019 | eng_2019 | googlebooks-eng-20200217 | Книги преимущественно на английском языке издаются в любой стране. |
Английский 2012 | eng_2012 | googlebooks-eng-all-20120701 | |
Английский 2009 | eng_2009 | googlebooks-eng-all-200 | |
Английская художественная литература 2019 | eng_fiction_2019 | googlebooks-eng-fiction-20200217 | Книги преимущественно на английском языке, которые библиотека или издатель сочли художественной. |
Английская художественная литература 2012 | eng_fiction_2012 | googlebooks-eng-fiction-all-20120701 | |
Английская художественная литература 2009 | eng_fiction_2009 | googlebooks-eng-fiction-all-200 | |
Английский Один миллион | eng_1m_2009 | googlebooks-eng-1M-200 | «Google Миллион».Все на английском языке с датами от С 1500 по 2008 год. Из любой книги было выбрано не более 6000 книг. год, что означает, что все отсканированные книги с ранних лет настоящее время, а книги более поздних лет отбираются случайным образом. Случайный выборки отражают тематические распределения за год (так что есть компьютерных книг в 2000 г. больше, чем в 1980 г.). |
китайский 2019 | chi_sim_2019 | googlebooks-chi-sim-20200217 | Книги преимущественно упрощенным китайским шрифтом. |
китайский 2012 | chi_sim_2012 | googlebooks-chi-sim-all-20120701 | |
Китайский 2009 | chi_sim_2009 | googlebooks-chi-sim-all-200 | |
Французский 2019 | fre_2019 | googlebooks-fre-20200217 | Книги преимущественно на французском языке. |
Французский 2012 | fre_2012 | googlebooks-fre-all-20120701 | |
Французский 2009 | fre_2009 | googlebooks-fre-all-200 | |
Немецкий 2019 | ger_2019 | googlebooks-ger-20200217 | Книги преимущественно на немецком языке. |
Немецкий 2012 | ger_2012 | googlebooks-ger-all-20120701 | |
Немецкий 2009 | ger_2009 | googlebooks-ger-all-200 | |
Еврейский 2019 | heb_2019 | googlebooks-heb-20200217 | Книги преимущественно на иврите. |
Еврейский 2012 | heb_2012 | googlebooks-heb-all-20120701 | |
Еврейский 2009 | heb_2009 | googlebooks-heb-all-200 | |
Испанский 2019 | spa_2019 | googlebooks-spa-20200217 | Книги преимущественно на испанском языке. |
Испанский 2012 | spa_2012 | googlebooks-spa-all-20120701 | |
Испанский 2009 | spa_2009 | googlebooks-spa-all-200 | |
Русский 2019 | rus_2019 | googlebooks-rus-20200217 | Книги преимущественно на русском языке. |
Русский 2012 | rus_2012 | googlebooks-rus-all-20120701 | |
Русский 2009 | rus_2009 | googlebooks-rus-all-200 | |
Итальянский 2019 | ita_2019 | googlebooks-ita-20200217 | Книги преимущественно на итальянском языке. |
итальянский 2012 | ita_2012 | googlebooks-ita-all-20120701 |
По сравнению с версиями 2009 года версии 2012 и 2019 годов имеют больше книг, улучшенное распознавание текста, улучшенная библиотека и издатель метаданные. Версии 2012 и 2019 годов также не образуют перекрестные предложения. границ, и формируют диаграммы через границы страницы, в отличие от Версии 2009 г.
С корпусами 2012 и 2019 годов токенизация также улучшилась за счет использования набор правил, созданных вручную (кроме китайского, где статистическая система используется для сегментации).В корпусе 2009 г. токенизация была основана просто на пробеле.
Поиск в Google Книгах
Ниже графика показаны "интересные" диапазоны лет для вашего запроса. термины. Нажав на них, вы отправите свой запрос прямо в Google. Книги. Обратите внимание, что Ngram Viewer чувствителен к регистру, но Google Книги результаты поиска , а не .
В ходе этих поисков будут найдены фразы на любом из языков выбранный вами корпус, но результаты возвращаются из полной версии Google Корпус книг.Итак, если вы используете Ngram Viewer для поиска французского фразу во французском корпусе, а затем перейдите в Google Книги, этот поиск будет производиться по той же французской фразе, которая может встречаться в книга преимущественно на другом языке.
Часто задаваемые вопросы
Почему я не вижу ожидаемых результатов?
Возможно по одной из следующих причин:
- Средство просмотра Ngram чувствительно к регистру. Попробуйте использовать в запросе заглавные буквы или установите флажок "без учета регистра" поле справа от поля поиска.
- Вы ищете в неожиданном корпусе. Например, Франкенштейн не появляется в русских книгах, поэтому, если вы выполните поиск в русском корпусе, вы увидите плоскую линию. Вы можете выбрать корпус через раскрывающееся меню под полем поиска или с помощью оператора выбора корпуса, например, Frankenstein: eng_2019.
- В вашей фразе есть запятая, знак плюс, дефис, звездочка, двоеточие, или косая черта. Это имеет особое значение для Ngram Зритель; см. Расширенное использование.Попробуйте заключить фразу в квадратные скобки (хотя с запятыми это не поможет).
Как Ngram Viewer обрабатывает знаки препинания?
Мы применяем набор правил токенизации, специфичных для конкретного язык. В английском языке сокращения превращаются в два слова (они становится биграммой, которой они являются, мы становимся нами буду и тд). Притяжательное также отделяется, но R'n'B остается одним токеном. Отрицания (нет) нормализовано так что не становится не делать. На русском, диакритический знак ё нормализуется до e и так далее.Те же правила применяется для анализа как ngram, набранных пользователями, так и ngrams извлекается из корпусов, что означает, что если вы ищете не пугайтесь того факта, что Ngram Viewer переписывает, чтобы не делать; это точно изображает использование и то, и другое нет и не используется в корпусе. Однако это означает, что нет возможности явно искать конкретный формы не могут (или не могут): получить нельзя и не может и не может сразу.
Как мне увидеть примеры использования в контексте?
Под диаграммой Ngram Viewer мы приводим таблицу предопределенных Поиск в Google Книгах сужался до определенного года.Мы выбрали диапазоны по интересности: если ngram имеет огромный пик в конкретный год, который появится сам по себе как поиск, с другие поисковые запросы на более длительный срок.
В отличие от корпуса Ngram Viewer 2019, корпус Google Книг не часть речи отмечена. Нельзя искать, скажем, глагольную форму из развеселить в Google Книгах. Так что любые нграммы с частью речи теги (например, cheer_VERB) исключаются из таблицы Google Книжные поиски.
Ngram Viewer имеет корпуса 2009, 2012 и 2019 годов, но Google Книги так не работает.Когда вы ищете в Google Книгах, вы поиск по всем доступным в настоящее время книгам, поэтому могут быть различия между тем, что вы видите в Google Книгах, и тем, что вы бы ожидайте увидеть данную диаграмму Ngram Viewer.
Почему я вижу больше всплесков и плато в ранние годы?
Издательство было относительно редким событием в 16 и 17 гг. веков. (Есть опубликовано всего около 500000 книг на английском языке до 19 века.) Итак, если фраза встречается в одной книге, в одной год, но не в предыдущие или последующие годы, что создает более высокий шип, чем в последующие годы.
Плато обычно представляют собой просто сглаженные шипы. Измените сглаживание до 0.
Что означает «сглаживание»?
Часто тенденции становятся более очевидными, когда данные рассматриваются как движущиеся в среднем. Сглаживание 1 означает, что данные, показанные за 1950 год, будут среднее значение необработанного подсчета за 1950 плюс 1 значение с каждой стороны: («счет за 1949 год» + «счет за 1950 год» + «счет за 1951 год»), деленный на 3. Таким образом, сглаживание 10 означает, что будет усреднено 21 значение: 10 на с любой стороны, плюс целевое значение в центре.
На левом и правом краях графика меньше значений в среднем. При сглаживании 3 крайнее левое значение (притвориться это 1950 год) будет рассчитываться как ("счет за 1950" + "счетчик для 1951 "+" счет для 1952 "+" счет для 1953 "), разделенный на 4.
Сглаживание 0 означает отсутствие сглаживания: только необработанные данные.
В наши дни издается намного больше книг. Разве это не перекос результаты?
Было бы, если бы мы не нормализовали по количеству книг, изданных в каждый год.
Почему вы показываете ровную линию 0%, когда я знаю фразу в моем запрос встречается хотя бы в одной книге?
При большой нагрузке Ngram Viewer иногда возвращает ровная линия; перезагрузите, чтобы подтвердить, что на самом деле нет обращений для фраза. Кроме того, мы рассматриваем только те граммы, которые встречаются не менее чем в 40 книги. В противном случае набор данных вырастет в размерах, и мы не будем в состоянии предложить их все.
Насколько точны теги части речи?
Предсказываются теги части речи и отношения зависимости. автоматически.Оценка точности этих прогнозов сложно, но от современного английского мы ожидаем точности теги части речи должны быть около 95% и точность зависимости отношения около 85%. О старом английском тексте и для других языков точность ниже, но, вероятно, выше 90% для тегов части речи и выше 75% для зависимостей. Это подразумевает значительное количество ошибки, которые следует учитывать при рисовании выводы.
Теги части речи построены из небольшого обучающего набора (всего миллион слов для английского).Иногда это будет недостаточно распространены необычные употребления, такие как зеленый или собака или закажите как глаголы, или спросите как существительное.
Дополнительная информация о китайском языке: до 20 века, классическая Китайский язык традиционно использовался для всех письменных коммуникация. Классический китайский основан на грамматике и словарный запас древнего китайского языка, а синтаксические аннотации будут поэтому ошибаться чаще, чем правы.
Также обратите внимание, что корпус 2009 года не был частью речи отмечен.
Я пишу статью по вашим результатам. Как я могу процитировать вашу работу?
Если вы собираетесь использовать эти данные для академической публикации, укажите исходную статью:
Жан-Батист Мишель *, Юань Куй Шен, Авива Прессер Эйден, Адриан Верес, Мэтью К. Грей, Уильям Брокман, команда Google Книг, Джозеф П. Пикетт, Дейл Хойберг, Дэн Клэнси, Питер Норвиг, Джон Орвант, Стивен Пинкер, Мартин А. Новак и Эрез Либерман Эйден *. Количественный анализ культуры с использованием миллионов оцифрованных Книги . Science (Опубликовано в Интернете перед печатью: 16.12.2010)
У нас также есть статья о тегах нашей части речи:
Юрий Лин, Жан-Батист Мишель, Эрез Либерман Эйден, Джон Орвант, Уильям Брокман, Славянин Петров. Синтаксические аннотации для корпуса Ngram Google Книг . Поступления 50-го ежегодного собрания Ассоциации компьютерной лингвистики Том 2: Демо-документы (ACL '12) (2012)
Могу ли я загрузить ваши данные для проведения собственных экспериментов?
Да! Данные ngram доступны для Скачать здесь.