Itemset and Support Count Let I = {

Itemset and Support Count Let I = {i 1 ,i 2 ,...,i d } be the set of all items in a market basket data and T = {t 1 ,t 2 ,...,t N } be the set of all transactions. Each transaction t i contains a subset of items chosen from I. In association analysis, a collection of zero or more items is termed an itemset. If an itemset contains k items, it is called a k-itemset. For instance, {Beer, Diapers, Milk} is an example of a 3-itemset. The null (or empty) set is an itemset that does not contain any items. The transaction width is defined as the number of items present in a trans- action. A transaction t j is said to contain an itemset X if X is a subset of t j . For example, the second transaction shown in Table 6.2 contains the item- set {Bread, Diapers} but not {Bread, Milk}. An important property of an itemset is its support count, which refers to the number of transactions that contain a particular itemset. Mathematically, the support count, σ(X), for an itemset X can be stated as follows: σ(X) = ∣ ∣ {t i |X ⊆ t i , t i ∈ T} ∣ ∣ , where the symbol | · | denote the number of elements in a set. In the data set shown in Table 6.2, the support count for {Beer, Diapers, Milk} is equal to two because there are only two transactions that contain all three items. Association Rule An association rule is an implication expression of the form X −→ Y , where X and Y are disjoint itemsets, ie, X ∩ Y = ∅. The strength of an association rule can be measured in terms of its support and confidence . Support determines how often a rule is applicable to a given
Page 4
330 Chapter 6 Association Analysis data set, while confidence determines how frequently items in Y appear in transactions that contain X. The formal definitions of these metrics are Support, s(X −→ Y ) = σ(X ∪ Y ) N ; (6.1) Confidence, c(X −→ Y ) = σ(X ∪ Y ) σ(X) . (6.2) Example 6.1. Consider the rule {Milk, Diapers} −→ {Beer}. Since the support count for {Milk, Diapers, Beer} is 2 and the total number of trans- actions is 5, the rule's support is 2/5 = 0.4. The rule's confidence is obtained by dividing the support count for {Milk, Diapers, Beer} by the support count for {Milk, Diapers}. Since there are 3 transactions that contain milk and di- apers, the confidence for this rule is 2/3 = 0.67. Why Use Support and Confidence? Support is an important measure because a rule that has very low support may occur simply by chance. A low support rule is also likely to be uninteresting from a business perspective because it may not be profitable to promote items that customers seldom buy together (with the exception of the situation described in Section 6.8). For these reasons, support is often used to eliminate uninteresting rules. As will be shown in Section 6.2.1, support also has a desirable property that can be exploited for the efficient discovery of association rules. Confidence, on the other hand, measures the reliability of the inference made by a rule. For a given rule X −→ Y , the higher the confidence, the more likely it is for Y to be present in transactions that contain X. Confidence also provides an estimate of the conditional probability of Y given X. Association analysis results should be interpreted with caution. The infer- ence made by an association rule does not necessarily imply causality. Instead, it suggests a strong co-occurrence relationship between items in the antecedent and consequent of the rule. Causality, on the other hand, requires knowledge about the causal and effect attributes in the data and typically involves rela- tionships occurring over time (eg, ozone depletion leads to global warming). Formulation of Association Rule Mining Problem The association rule mining problem can be formally stated as follows: Definition 6.1 (Association Rule Discovery). Given a set of transactions T, find all the rules having support ≥ minsup and confidence ≥ minconf, where minsup and minconf are the corresponding support and confidence thresholds.
Page 5
6.1 Problem Definition 331 A brute-force approach for mining association rules is to compute the sup- port and confidence for every possible rule. This approach is prohibitively expensive because there are exponentially many rules that can be extracted from a data set. More specifically, the total number of possible rules extracted from a data set that contains d items is R = 3 d − 2 d+1 + 1. (6.3) The proof for this equation is left as an exercise to the readers (see Exercise 5 on page 405). Even for the small data set shown in Table 6.1, this approach requires us to compute the support and confidence for 3 6 −2 7 +1 = 602 rules. More than 80% of the rules are discarded after applying minsup = 20% and minconf = 50%, thus making most of the computations become wasted. To avoid performing needless computations, it would be useful to prune the rules early without having to compute their support and confidence values. An initial step toward improving the performance of association rule min- ing algorithms is to decouple the support and confidence requirements. From Equation 6.2, notice that the support of a rule X −→ Y depends only on the support of its corresponding itemset, X ∪ Y . For example, the following rules have identical support because they involve items from the same itemset, {Beer, Diapers, Milk}: {Beer, Diapers} −→ {Milk}, {Beer, Milk} −→ {Diapers}, {Diapers, Milk} −→ {Beer}, {Beer} −→ {Diapers, Milk}, {Milk} −→ {Beer,Diapers}, {Diapers} −→ {Beer,Milk}. If the itemset is infrequent, then all six candidate rules can be pruned imme- diately without our having to compute their confidence values. Therefore, a common strategy adopted by many association rule mining algorithms is to decompose the problem into two major subtasks: 1. Frequent Itemset Generation , whose objective is to find all the item- sets that satisfy the minsup threshold. These itemsets are called frequent itemsets. 2. Rule Generation , whose objective is to extract all the high-confidence rules from the frequent itemsets found in the previous step. These rules are called strong rules. The computational requirements for frequent itemset generation are gen- erally more expensive than those of rule generation. Efficient techniques for generating frequent itemsets and association rules are discussed in Sections 6.2 and 6.3, respectively.
Page 6
332 Chapter 6 Association Analysis null b a c d e de ce be ae ad ac ab abc abd abe abcd acd abcde abce abde acde bcde ace ade bcd bce bde cde bd bc cd Figure 6.1. An itemset lattice. 6.2 Frequent Itemset Generation A lattice structure can be used to enumerate the list of all possible itemsets. Figure 6.1 shows an itemset lattice for I = {a,b,c,d,e}. In general, a data set that contains k items can potentially generate up to 2 k − 1 frequent itemsets, excluding the null set. Because k can be very large in many practical appli- cations, the search space of itemsets that need to be explored is exponentially large. A brute-force approach for finding frequent itemsets is to determine the support count for every candidate itemset in the lattice structure. To do this, we need to compare each candidate against every transaction, an opera- tion that is shown in Figure 6.2. If the candidate is contained in a transaction, its support count will be incremented. For example, the support for {Bread, Milk} is incremented three times because the itemset is contained in transac- tions 1, 4, and 5. Such an approach can be very expensive because it requires O(NMw) comparisons, where N is the number of transactions, M = 2 k −1 is the number of candidate itemsets, and w is the maximum transaction width.
Page 7
6.2 Frequent Itemset Generation 333 M Milk, Diapers, Beer, Coke Bread, Diapers, Beer, Eggs Bread, Milk, Diapers, Beer Bread, Milk, Diapers, Coke Bread, Milk Transactions Candidates TID Items N 1 2 3 4 5 Figure 6.2. Counting the support of candidate itemsets. There are several ways to reduce the computational complexity of frequent itemset generation. 1. Reduce the number of candidate itemsets ( M ). The Apriori prin- ciple, described in the next section, is an effective way to eliminate some of the candidate itemsets without counting their support values. 2. Reduce the number of comparisons. Instead of matching each can- didate itemset against every transaction, we can reduce the number of comparisons by using more advanced data structures, either to store the candidate itemsets or to compress the data set. We will discuss these strategies in Sections 6.2.4 and 6.6. 6.2.1 The Apriori Principle This section describes how the support measure helps to reduce the number of candidate itemsets explored during frequent itemset generation. The use of support for pruning candidate itemsets is guided by the following principle. Theorem 6.1 (Apriori Principle). If an itemset is frequent, then all of its subsets must also be frequent. To illustrate the idea behind the Apriori principle, consider the itemset lattice shown in Figure 6.3. Suppose {c,d,e} is a frequent itemset. Clearly, any transaction that contains {c,d,e} must also contain its subsets, {c,d}, {c,e}, {d,e}, {c}, {d}, and {e}. As a result, if {c,d,e} is frequent, then all subsets of {c,d,e} (ie, the shaded itemsets in this figure) must also be frequent.
Page 8
334 Chapter 6 Association Analysis null b a c d e de ce be ae ad ac ab abc abd abe abcd acd abcde abce abde acde bcde ace ade bcd bce bde cde bd bc cd Frequent Itemset Figure 6.3. An illustration of the Apriori principle. If {c, d, e} is frequent, then all subsets of this itemset are frequent. Conversely, if an itemset such as {a,b} is infrequent, then all of its supersets must be infrequent too. As illustrated in Figure 6.4, the entire subgraph containing the supersets of {a,b} can be pruned immediately once {a,b} is found to be infrequent. This strategy of trimming the exponential search space based on the support measure is known as support-based pruning

0/5000

Источник: -

Цель: -

Результаты (русский) 1: [копия]

Скопировано!

Набор элементов и поддержки всего пусть я = {1, 2,..., я d} быть набор всех элементов в данных потребительской корзины и T = {t 1, t 2,..., t N} быть набор всех транзакций. Каждой транзакции t i содержит подмножество элементов из я. В ассоциации анализа коллекция из нуля или более элементов называется набор элементов. Если набор элементов содержит k элементов, то он называется k-набор элементов. Например {пиво, памперсы, молоко} является примером 3-набор элементов. Набор null (или пустой) — набор элементов, который не содержит ни одного элемента. Ширина транзакции определяется как количество элементов, присутствующих в транс действий. Говорят, что транзакции t j содержит набор элементов X, если X является подмножеством t j. Например, показано в таблице 6.2 вторая транзакция содержит элемент набор {хлеб, подгузники} но не {хлеб, молоко}. Важным свойством набора элементов является его поддержка счетчик, который ссылается на количество транзакций, которые содержат определенного набора элементов. Математически, поддержка игр, σ(X), для набора элементов X можно заявил следующее: σ(X) = ∣ ∣ {t я | X ⊆ t i, t i ∈ T} ∣ ∣, где символ | · | обозначим количество элементов в наборе. В наборе данных, показано в таблице 6.2 поддержку игр для {пиво, памперсы, молоко} равняется двум потому что есть только две операции, которые содержат все три пункта. Правила ассоциации Ассоциация правило является выражением последствия формы X −→ Y, где X и Y являются Непересекающиеся наборы элементов, то есть, X ∩ Y = ∅. Сила правил ассоциации могут быть измерены с точки зрения его поддержку и доверие. Поддержка определяет, как часто правило применяется к даннойСтраница 4330 набор данных глава 6 ассоциации анализа, в то время как доверие определяет, как часто в сделках, которые содержат X появляются элементы в Y. Формальные определения этих показателей являются поддержка, s (X −→ Y) = σ (X ∪ Y) N; (6.1) доверия, c (Y X −→) = σ (X ∪ Y) σ(X). Пример 6.1 (6.2). Рассмотрим правило {молоко, пеленки} −→ {пиво}. С поддержку игр для {молоко, пеленки, пиво} 2 и общее количество транс акций является 5, правила поддержки является 2/5 = 0,4. Правило доверия получается путем деления поддержки игр для {молоко, пеленки, пиво} граф поддержки для {молока, подгузники}. Поскольку есть 3 операции, которые содержат молоко и ди apers, доверие для этого правила составляет 2/3 = 0,67. Зачем использовать поддержку и доверие? Поддержка является важной мерой, потому что, как правило, обладает очень низкой поддержкой может произойти лишь случайно. Правило низкой поддержки также может быть неинтересно с точки зрения бизнеса, потому что она не может быть выгодно продвигать товары, которые клиенты редко покупают вместе (за исключением ситуации, описанной в разделе 6.8). По этим причинам поддержка часто используется для устранения неинтересных правил. Как будет показано в разделе 6.2.1, поддержка также имеет свойство желательно, которые могут быть использованы для эффективного обнаружения ассоциативных правил. Уверенность, с другой стороны, меры надежности умозаключения, сделанные с помощью правила. Для данного правила X −→, Y, тем выше доверие, тем больше вероятность что это для Y, чтобы присутствовать в сделках, которые содержат X. доверия также обеспечивает оценку условной вероятности Y, учитывая результаты анализа X. Ассоциации следует интерпретировать с осторожностью. Infer ными, внесенные правилом ассоциации не обязательно предполагает причинной связи. Вместо этого он предполагает сильное совместное возникновение отношений между элементами в предшествующей задачи и последующие правила. Причинность, с другой стороны, требует знаний о причинно-следственной и эффект атрибуты в данных и обычно включает свя вить, происходящих с течением времени (например, истощение озонового слоя приводит к глобальному потеплению). Постановка проблемы добычи правило ассоциации, ассоциации правила добычи проблема может официально заявил следующее: определение 6.1 (Ассоциация правило обнаружения). Учитывая набор транзакций T, найти все правила, имея поддержку ≥ minsup и уверенность ≥ minconf, где minsup и minconf являются соответствующая поддержка и уверенность пороговые значения.Страница 56.1 проблема определения 331 грубой силы подход к поиску ассоциативных правил заключается в вычислении sup порт и уверенность для всех возможных правил. Этот подход слишком дорогими, потому что есть экспоненциально много правил, которые могут быть извлечены из набора данных. В частности, общее количество возможных правил, извлеченные из набора данных, который содержит элементы, d-R = − 3 d 2 d + 1 + 1. (6.3) доказательство для этого уравнения остается в качестве упражнения для читателей (см. Упражнение 5 на странице 405). Даже для небольшого набора данных, показано в таблице 6.1, этот подход требует от нас для вычисления поддержки и достоверности для 3 6 −2 7 + 1 = 602 правила. Более 80% правил удаляются после применения minsup = 20% и minconf = 50%, таким образом делая большую часть вычислений стать впустую. Чтобы избежать ненужной вычисления, было бы полезно обрезать правил рано без необходимости вычисления их значения поддержки и достоверности. Первым шагом на пути повышения производительности алгоритмов мин ing правила ассоциации является отделить требования поддержки и доверия. От 6.2 уравнение Обратите внимание, что поддержка правило X −→ Y зависит только от поддержки своих соответствующих элементов, X ∪ Y. Например, следующие правила имеют идентичные поддержку, потому что они включают элементы из набора элементов же, {пиво, памперсы, молоко}: {пиво, подгузники} −→ {молоко}, {пиво, молоко} −→ {подгузники}, {памперсы, молоко} −→ {пиво}, {пиво} −→ {памперсы, молоко}, {молока} −→ {пиво, подгузники}, {подгузники} −→ {пиво, молоко}. Если набор элементов нечасто, все шесть кандидатов правила могут быть обрезных imme немедленно без необходимости вычисления значений их доверие. Таким образом, Общая стратегия, принятая многие алгоритмы интеллектуального анализа правил Ассоциации необходимо разложить проблему на две крупные подзадачи: 1. частые поколение набора элементов, чья цель-найти все элемента наборы, которые удовлетворяют порог minsup. Эти наборы называются часто используемых наборов элементов. 2. правило поколение, целью которых является извлечение всех правил высокого доверия из часто используемых наборов элементов, найденных в предыдущем шаге. Эти правила называются строгие правила. Вычислительная требования для частого набора элементов поколения являются gen-ются более дорогой, чем те правило поколения. В разделы 6.2 и 6.3, соответственно рассматриваются эффективные методы для создания часто используемых наборов элементов и правил ассоциации.Страница 6332 Глава 6 Ассоциация анализ null b c d e de ce быть ae ad ac ab abc Абд Абэ abcd acd abcde abce Абде acde bcde туз Аде bcd bce БДЭ cde bd cd до н.э. рисунок 6.1. Элементов решетки. 6.2 частые поколение набора элементов, структура решетки можно использовать для перечисления списка всех возможных наборов элементов. Рисунок 6.1 показывает набор элементов решетки для I = {а, b, c, d, e}. В общем набор данных, который содержит k элементов может потенциально генерировать до 2 k − 1 часто используемых наборов элементов, за исключением null set. Потому что k может быть очень большим в многих практических appli катионы, экспоненциально большие пространства поиска наборов элементов, которые необходимо изучить. Грубой силы подход для поиска часто используемых наборов элементов заключается в том, чтобы определить количество поддержки для каждого кандидата набора элементов в структуре решетки. Чтобы сделать это, нам нужно сравнить каждого кандидата против каждой транзакции, опера ции, показанный на рисунке 6.2. Если кандидат содержится в транзакции, будет увеличена его поддержки счетчик. Например, поддержка {хлеб, молоко} увеличивается в три раза, потому что набор элементов содержится в ние ции 1, 4 и 5. Такой подход может быть очень дорогим потому, что он требует сравнения O(NMw), где N — количество сделок, M = 2 k −1 является количество наборов элементов кандидата, и w — Ширина максимальная транзакции.Страница 76.2 частых элементов поколения 333 M молоко, пеленки, пиво, хлеб кокса, подгузники, пиво, яйца, хлеб, молоко, пеленки, пивной хлеб, молоко, пеленки, Кокс хлеб, молоко кандидатов транзакции TID элементов N 1 2 3 4 5 Рисунок 6.2. Считая поддержку кандидата наборов элементов. Существует несколько способов для снижения вычислительной сложности частых элементов поколения. 1. Уменьшите количество кандидатов наборов элементов (M). Априори прин постулат, описанные в следующем разделе, является эффективным способом устранить некоторые из наборов элементов кандидат без учета их значения поддержки. 2. сократить количество сравнений. Вместо сопоставления каждого набора элементов можно didate против каждой транзакции, мы можем уменьшить количество сравнений с помощью более сложных структур данных, для хранения наборов элементов кандидата или для сжатия данных. Мы будем обсуждать эти стратегии в разделах 6.2.4 и 6.6. 6.2.1 принцип априори в этом разделе описывается, как мера поддержки помогает уменьшить количество кандидатов наборов элементов, изучить во время частых элементов поколения. Использование поддержки для обрезки кандидат наборы руководствуется следующим принципом. Теорема 6.1 (априори принцип). В случае частого набора элементов, то все его подмножества также должны быть частыми. Чтобы проиллюстрировать суть принципа априори, рассмотрим набор элементов решетки, показано на рисунке 6.3. Предположим, {c, d, e} является частым набора элементов. Очевидно, любая сделка, которая содержит {c, d, e} также должен содержать его подмножеств, {c, d}, {c, e}, {d, e}, {c}, {d} и {e}. В результате если {c, d, e} часто, затем все подмножества {c, d, e} (т.е., тенистой наборы элементов в рисунке) также должны быть частыми.Страница 8334 Глава 6 Ассоциация анализ null b c d e de ce быть ae ad ac ab abc Абд Абэ abcd acd abcde abce Абде acde bcde туз Аде bcd bce БДЭ cde bd до н.э. cd частых элементов рисунок 6.3. Иллюстрация принципа априори. Если {c, d, e} является частые, то все подмножества этого набора элементов являются частыми. И наоборот если набор элементов например {a, b} это редко, то все его суперсеты должны быть нечастыми тоже. Как показано на рисунке 6.4, весь subgraph, содержащие суперсеты {a, b} можно обрезать сразу же после {a, b} оказывается редко. Эта стратегия обрезки экспоненциального поиск пространства, на основе поддержки меры известен как обрезка, на основе поддержки

переводится, пожалуйста, подождите..

Результаты (русский) 2:[копия]

Скопировано!

НИКАКИХ гарантий и поддержки Кол Пусть I = {I 1, I 2, ..., ID} быть набор всех элементов в условиях рыночной корзины данных и Т = {T 1, T 2, ..., N} т быть набор всех операций. Каждый ти операция содержит подмножество элементов, выбранных из I. В анализе ассоциации, коллекция нуля или более элементов называется в НИКАКИХ гарантий. Если НИКАКИХ гарантий содержит элементы К, это называется K-НИКАКИХ гарантий. Например, {Пиво, Подгузники, Молоко} является примером 3-НИКАКИХ гарантий. NULL (или пусто) набор НИКАКИХ гарантий, что не содержат каких-либо предметов. Ширина транзакции определяется как количество элементов, присутствующих в транс- действий. TJ сделка сказал содержать НИКАКИХ гарантий X, если X является подмножеством Tj. Например, вторая транзакция показано в таблице 6.2 содержит набор item- {Хлеб, Подгузники}, но не {хлеб, молоко}. Важным свойством НИКАКИХ гарантий является подсчет поддержка, которая относится к числу сделок, которые содержат определенную НИКАКИХ гарантий. Математически, количество поддержка, σ (Х), для НИКАКИХ гарантий X может быть сформулирована следующим образом: σ (Х) = | | {Ti | Х ⊆ ти, ти ∈ T} | |, где символ | · | обозначим количество элементов в наборе. В наборе данных, показанных в таблице 6.2, поддержка рассчитывать на {Пиво, Подгузники, молоко} равен двум, потому что есть только две сделки, которые содержат все три элемента. Ассоциация Правило правило ассоциация Смысл выражение вида X - → Y, где Х и Y непересекающиеся наборов, то есть X ∩ Y = ∅. Сила правилом ассоциации могут быть измерены с точки зрения его поддержку и доверие. Поддержка определяет, как часто правило применимо к данному
Page 4
330 Глава 6 Ассоциация Анализ набора данных, в то время как доверие определяет, как часто элементы в Y появляются в сделках, которые содержат X. Формальные определения этих показателей являются поддержка, S (X - → Y) = σ (X ∪ Y) N; (6.1) Уверенность, с (Х - → Y) = σ (X ∪ Y) σ (Х). (6.2) Пример 6.1. Рассмотрим правило {молока, Подгузники} - {→ Пиво}. Так подсчета поддержки для {Молоко, Подгузники, Пиво} 2 и общее количество транс действий 5, поддержка правиле 2/5 = 0,4. Уверенность правиле получается путем деления подсчет поддержки для {Молоко, Подгузники, Пиво} на число поддержки для {Молоко, Подгузники}. Поскольку существует 3 сделки, которые содержат молоко и ди- Apers, уверенность для этого правила составляет 2/3 = 0,67. Зачем использовать поддержку и доверие? Поддержка важной мерой, потому что правило, которое имеет очень низкую поддержку может произойти просто случайно. Правило низких поддержки, вероятно, также будет неинтересно с точки зрения бизнеса, потому что он не может быть выгодно продвигать вещи, которые клиенты редко покупают вместе (за исключением ситуации, описанной в разделе 6.8). По этим причинам, поддержка часто используется для устранения неинтересные правила. Как будет показано в разделе 6.2.1, поддержка также имеет желательное свойство, которое может быть использована для эффективного обнаружения ассоциативных правил. Уверенность, с другой стороны, измеряет надежность вывода, сделанного правило. Для данного правила X - → Y, выше доверие, тем более вероятно, что это за Y присутствовать в сделках, которые содержат Х. Уверенность также обеспечивает оценку условной вероятности Y приведенных результатов Х. ассоциации анализа следует интерпретировать с осторожностью. Infer- ENCE сделаны правилом ассоциации не обязательно подразумевает причинную связь. Вместо этого, он свидетельствует о сильном смежности отношения между элементами в предшествующей и последующей правила. Причинность, с другой стороны, требует знания о причинно-следственных и следственных атрибутов в данных и, как правило, включает в себя отношений шения, возникающие в течение долгого времени (например, истощение озонового слоя приводит к глобальному потеплению). Постановка ассоциации правила Mining проблемы Проблема добыча правило ассоциация может быть официально сформулирована следующим образом: Определение 6.1 (Ассоциация Правило Discovery). Учитывая множество операций Т, найти все правила, имеющие поддержку ≥ minsup и уверенность ≥ minconf, где minsup и minconf являются соответствующие поддержку и доверие пороги.
Page 5
6.1 Определение проблемы 331 подход грубой силы для правил горной ассоциации является вычисление поддержку и доверие для каждого возможного правила. Этот подход слишком дорого, потому что есть экспоненциально много правил, которые могут быть извлечены из набора данных. Более конкретно, общее количество возможных правил, извлеченных из набора данных, который содержит D элементов является R = 3 г - 2 г + 1 + 1 (6.3) Доказательство для этого уравнения в качестве упражнения для читателей (см Упражнение 5 на стр 405). Даже для небольшого набора данных, показанных в таблице 6.1, этот подход требует от нас, чтобы вычислить поддержку и уверенность в 3 6 -2 7 + 1 = 602 правил. Более 80% из правил отброшены после применения minsup = 20% и minconf = 50%, что делает большинство вычислений стали впустую. Чтобы избежать ненужных вычислений выполнения, было бы полезно, чтобы сократить правила в начале, не имея, чтобы вычислить их поддержку и доверие значения. Первым шагом на пути к повышению производительности правило ассоциации горно- алгоритмов, чтобы отделить требования поддержку и доверие. Из уравнения 6.2, обратите внимание, что поддержка правило X - → Y зависит только от поддержки соответствующей НИКАКИХ гарантий, X ∪ Y. Например, следующие правила имеют одинаковую поддержку, потому что они связаны элементы из той же НИКАКИХ гарантий, {Пиво, Подгузники, Молоко}: {Пиво, Подгузники} - {→ Молоко}, {Пиво, молоко} - {→ Подгузники}, {Подгузники , Молоко} - {→ Пиво}, {} Пиво - → {Подгузники, молоко}, {} Молоко - → {Пиво, Подгузники}, {} Подгузники - → {Пиво, молоко}. Если НИКАКИХ гарантий нечасто, то все шесть правил кандидат может быть сокращен немедленно без нашего вычислить их значения доверия. Таким образом, общая стратегия, принятая многими алгоритмов интеллектуального правило ассоциация разложить проблему на две основных шага: 1. Частые поколения НИКАКИХ гарантий, целью которой является, чтобы найти все item- наборы, которые удовлетворяют порог minsup. Эти наборов называются часто встречающихся наборов. 2. Правило поколения, целью которого является, чтобы извлечь все правила высокого доверия со стороны часто встречающихся наборов, найденных на предыдущем шаге. Эти правила называются строгие правила. Вычислительные требования для частого НИКАКИХ гарантий поколения утвер- ждать вообще дороже, чем поколения правил. Эффективные методы для генерации часто встречающихся наборов и ассоциативных правил обсуждаются в разделах 6.2 и 6.3, соответственно.
Page 6
332 Глава 6 Ассоциация Анализ нуль bacde де се быть ае объявления переменного аб ABC абд Абэ ABCD ACD ABCDE ABCE ABDE ACDE BCDE туз ADE BCD BCE BDE CDE BD н.э. кд Рисунок 6.1. НИКАКИХ гарантий решетки. 6.2 Частое структура НИКАКИХ гарантий поколение решетки могут быть использованы для перечислить список всех возможных наборов. Рисунок 6.1 показывает НИКАКИХ гарантий решетку для I = {A, B, C, D, E}. В целом, набор данных, который содержит элементы К потенциально может генерировать до 2 K - 1 часто встречающихся наборов, за исключением нулевой набор. Потому что к может быть очень большим во многих практических применений, поиск пространство наборов, которые должны быть изучены экспоненциально большой. Подход грубой силы для нахождения часто встречающихся наборов является определить количество поддержки для каждого кандидата НИКАКИХ гарантий в структуре решетки. Чтобы сделать это, мы должны сравнить каждого кандидата против каждой сделки, в рабочий режим, который показан на рисунке 6.2. Если кандидат содержится в сделке, ее количество поддержка будет увеличиваться. Например, поддержка {хлеб, молоко} увеличивается в три раза, так как НИКАКИХ гарантий содержится в сделок 1, 4 и 5. Такой подход может быть очень дорогим, потому что он требует O (НМВ) сравнений, где N является Количество сделок M = 2 K -1 количество кандидатов наборов и ш максимальная ширина транзакций.
Страница 7
6.2 Частое НИКАКИХ гарантий поколения 333 М Молоко, Подгузники, пиво, кола Хлеб, Подгузники, Пиво, яйца хлеб, Молоко, Подгузники, Пиво хлеб, молоко, подгузники, Coca-Cola хлеб, молоко Сделки Кандидаты TID товары N 1 2 3 4 5 Рисунок 6.2. Подсчет поддержку кандидатов наборов. Есть несколько способов, чтобы уменьшить вычислительную сложность частые НИКАКИХ гарантий поколения. 1. Уменьшить количество кандидатов наборов (M). Априори принципе, описанные в следующем разделе, является эффективным способом устранить некоторые из кандидатов наборов, не считая их значения поддержки. 2. Уменьшите количество сравнений. Вместо того, чтобы каждый соответствующий являющиеся кандидатами НИКАКИХ гарантий против каждой транзакции, мы можем уменьшить количество сравнений при использовании более сложных структур данных, либо для хранения кандидатов встречающихся наборов или сжать набор данных. Мы обсудим эти стратегии в разделах 6.2.4 и 6.6. 6.2.1 Априори Принцип Этот раздел описывает, как мера поддержки помогает уменьшить количество кандидатов наборов разведанных при частом НИКАКИХ гарантий поколения. Использование поддержки обрезки кандидатов встречающихся наборов руководствуется следующим принципом. Теорема 6.1 (Априори Принцип). Если НИКАКИХ гарантий часто, то все его подмножеств также должны быть частыми. Чтобы проиллюстрировать идею позади принципе Apriori, рассмотрим НИКАКИХ гарантий решетку, показанную на рисунке 6.3. Предположим, {C, D, E} является частым НИКАКИХ гарантий. Очевидно, что любая сделка, которая содержит {C, D, E} должен также содержать свои подмножества, {C, D}, {С, Е}, {D, E}, {C}, {d} и {е}. В результате, если {C, D, E} часто, то все подмножества {C, D, е} (т.е. затененные наборов на этом рисунке) также должны быть частыми.
Страница 8
334 Глава 6 Ассоциация анализа нулевую bacde де се быть ае объявления переменного тока AB ABC абд Абэ ABCD ACD ABCDE ABCE ABDE ACDE BCDE туз ADE BCD BCE BDE CDE BD н.э. кд Частое НИКАКИХ гарантий Рисунок 6.3. Иллюстрация принципа Apriori. Если {C, D, E} часто, то все подмножества данного НИКАКИХ гарантий часты. И наоборот, если НИКАКИХ гарантий, таких как {, Ь} нечасто, то все его надмножеств должны быть редкими тоже. Как показано на рисунке 6.4, всего подграфа, содержащего надмножества {б} может быть сокращен сразу как только {б} оказывается редко. Эта стратегия обрезки экспоненциальный пространство поиска, основанную на меры поддержки, как известно, как поддержка на основе обрезка

переводится, пожалуйста, подождите..

Результаты (русский) 3:[копия]

Скопировано!

пункт набора поддержку рассчитывать, чтобы я я я = {1, 2,..., я} - это набор данных всех проектов в рыночной корзины и t = {Т - 1, т - 2, т -..., это все сделки n} настройки.Т - У меня есть выбор каждой сделки, корреляционный анализ подпункта, набор ноль или более называется множеств.Если проект включает k Пункт, это называется k Пункт набора.например, {пиво, подгузники,молоко} является 3-itemset случаев.нулевой (или пустые) набор является не содержит каких - либо проектов наборов.ширина сделки определяется как транс - роль в настоящее время число проектов.T - j сказал дел содержит пункт x x t если подмножество [J]..например, в таблице 6.2 показано содержит пункт набора второй сделки подгузники} {} {хлеб, а не хлеб, молоко.проект является одним из важных элементов поддержки означает это число, количество, включают в себя некоторые сделки.в математике, поддержку рассчитывать, Сигма (X), пункт сбора X можно описать следующим образом: σ = (x) Я путешествовала | путешествовала {X ⊆ t t t я путешествовала, я путешествовала в символы затем}, | - | заявил, что число элементов.в набор данных в таблице 6.2 показано число {пиво, поддержку,подгузники, сухое молоко}, потому что только две сделки равна 2 содержит три пункта.правилами ассоциации и ассоциации является выражение x y формы - → смысл, в котором x и y - это набор не пересекаются, IE, x y = ∅ ∩.правилами ассоциации власть может в своей поддержки и доверия для измерения.Как долго поддерживает решение одного правила применяются в отношении данной
4 страницы 330 главе 6
корреляционного анализа наборов данных, а уверенность, как часто появляется в содержит проект решения X официального определения этих показателей в поддержку сделки (x, y σ - →) = (x n u y); доверия (6.1), C (X - → y) = (x σ U y) σ (X).6.1 (6.2) случаев.с учетом правила подгузники} {сухое молоко, пиво - → {}.Поскольку число {молоко поддержки, подгузники,пиво} общее число действий является кросс - 2, 5, правила поддержки - 2 / 5 = 0,4.доверие будет поддерживать несколько правил для {{молоко сухое молоко, пеленки, подгузники для поддержки число пиво}}.Потому что есть 3 сделки содержит молока и второй газеты, это правило степень доверия для 2 / 3 = 0,67.Зачем использовать поддержку и доверие?поддержка является важной мерой, поскольку одно правило, просто случайно может быть очень низкой поддержки.Правила также низкой поддержки может быть скучно с коммерческой точки зрения, потому что это не выгодно поощрять клиентов купить вместе, редко (6.8 статьи в разделе описание ситуации, за исключением).в силу этих причин,Поддержка обычно используется для ликвидации нелегальных.В пункте 6.2.1 будет показано также, поддерживает хорошие характеристики, могут быть использованы для эффективного объединения правил обнаружили.уверенность, с другой стороны, правила меры путем экстраполяции надежности.для данного правила → X - Y, более уверенно,Более вероятно, что y является в настоящее время содержит X уверенность в сделки, также обеспечивает условия для оценки вероятности y X ассоциации толкование результатов анализа следует осторожно.вывод правил Ассоциации прогрессивного, не обязательно означает, что причинно - следственную связь.напротив,Это показывает, что решительно органической взаимосвязи между проектами в правила предпосылки и последствия.причинно - следственную связь, с другой стороны, необходимость в данных причинно - следственную связь атрибутов, обычно касается отношений с течением времени происходит отношения знаний (например, разрушение озонового слоя в результате глобального потепления).правилами ассоциации актуальности проблемы правил добычи проблемы могут быть официально объявлен рецепт: определение 6.1 (ассоциации правила открытия).учитывая набор сделки, найти все правила имеет поддержку ≥ minsup ≥ минимальное доверие и уверенность, в наименьшую поддержку и доверие является соответствующей поддержки и доверия порог 5 страниц.

6.1 Определение проблемы 331 объединения правил добычи является грубой силы метод расчета все возможные правила поддержки порт и доверия.Этот метод является дорогостоящим, потому что есть несколько правил, может извлечь из одного набора данных.более конкретно, из одного набора данных, содержит пункт, возможно, правила получения D в общей сложности R = 3 d d 1 1 - 2.(6.3) на практике доказать это уравнение зарезервировано для читателей (см. упражнение 5 405 страниц).даже небольшой набор данных, таких, как показано в таблице 6.1, этот метод требует расчета 1 2 3 6 7 мы = 602 - поддержки и доверия правил.более 80% правила будут minsup = 20% и после минимального доверия = 50% выброшенных отходов, с тем чтобы стать большинство расчетов.чтобы избежать ненужных правил расчета сокращения его, будет его ранней без расчета стоимости полезной поддержки и доверия.первоначальный шаг совершенствования деятельности объединения правил алгоритм будет минимальной поддержки и доверия требования.6.2 из уравнения,Следует отметить, что правила x y - → поддержки зависит только от их соответствующие наборы предметов поддержку u x, y.например, следующие правила имеет такую же поддержку, поскольку они касаются проектов из того же набора, {пеленки, подгузники}:{пиво, пиво, молоко, молоко - → {}}, {} пиво, молоко - → {} {пеленки, подгузники, сухое молоко - → {}}} {пиво, пиво - → {подгузники молоко, молоко}, {} {} - → пиво, подгузники,{} {} - подгузники → пиво, молоко.Если пункт набора является редким, то все шесть кандидатов могут подрезать будут выбирать не правила расчета стоимости их доверие.Таким образом, многие ассоциации правил добычи алгоритм использует общей стратегии является проблема будет разделен на два основных этапа: 1.производство часто пункт набора,Его цель заключается в том, чтобы найти все удовлетворения порог минимальной поддержки пункт набора.Эти проекты набор называется часто пункт.2.Правило генерации, и его цель состоит в том, что на один шаг от частых пунктов в ассоциации правил добычи.Эти правила называют сильный правил.частые вопросы создания общего правила расчета корни, чем требования является более дорогостоящим.частый набор правил Ассоциации генерации и эффективной технологии, 6.2 и 6.3, соответственно, в разделе 6, обсудили

страниц.332 главе 6 корреляционного анализа B, C, D, E, ав рекламы является пустой de ce AC AB ABC Абд Абэ ABCD ДСА ABCDE ABCE ABDE ACDE BCDE туз Эйд BCD эпосом БДЭ ЦРП BD год до н. э. CD Рисунок 6.1.пункт сбора решетки.6.2 частые вопросы создания решетки, структура может использоваться для перечисления всех возможных пунктов списка.Рисунок 6.1 показывает пункт набора решетки я = {A, B, C, D, E}.в целом,набор данных, содержит k Пункт может иметь высокий до 2 K - 1 частые вопросы, не включая пустое.Поскольку многие практического применения можно в K катионов, очень большой, и это нужно изучить пункт набора индекс поиска места.искать частых пунктов является грубой силы метод определения в решетки, структура каждого кандидатов наборов поддержку рассчитывать.Таким образом, нам нужно сравнить каждый кандидат для каждой сделки, опера, таких, как показано на рис. 6.2.если кандидат является содержится в делах поддержки, это число будет увеличиваться.например, для поддержки} {хлеб, молоко, потому что набор включает в себя увеличение в три раза сделки, 1, 4, и 5.Этот метод может очень дорого, потому что это требует o (сопоставление nmw), где n - количество сделок, м = 2 K - 1 пункт набора кандидатов и W - количество крупнейших сделок, ширина 7 страниц

. 6.2 частые вопросы создания 333 метров молоко, подгузники, пиво, кола, хлеб, подгузники, пиво, яйца, хлеб, молоко, пиво, пеленки, подгузники, Кокс, хлеб, молоко, хлеб,молоко сделки кандидатов tid проекта N 1 2 3 4 5 Рисунок 6.2.расчет набор кандидатов поддержки.есть сокращение частые вопросы создания, сложность алгоритма расчета несколько методов.1.уменьшить количество кандидатов наборов (m).принцип Apriori принцип, будет в следующем разделе описание,- устранить некоторые не поддерживает набор кандидатов метр численное эффективным образом.2.сокращение сравнения количество раз.и каждый матч может набор кандидатов для каждой сделки, мы можем использовать более современные структуры данных, сократить время сравнения, либо хоу набор вариантов хранения или сжатый набор данных.мы будем в раздел 6.6 обсудить эти стратегии 6.2.4.6.2.1 Apriori принцип в этом разделе описывается, как меры поддержки помогает сократить набор кандидатов часто пункт набора в процессе создания некоторые исследования.для обрезки набор кандидатов в поддержку использования входят следующие принципы в качестве руководства.теорема 6.1 (априори принцип).если один пункт набора часто,Затем это все подмножество должны также часто.идея, лежащая в основе принцип, что априори, рассмотреть Рисунок 6.3 показано пункт набора решетки.гипотеза} {C, D, E - часто пункт.Очевидно, что содержит {C, D, E} любые сделки, также должны содержать его подмножество {}, C, D, E}, {{C, D, E}, {}, {} {}, D, E.Поэтому, если {C, D, E - частые} {, то все подмножество C, D, E} (IE,диаграмма в тени должны также часто Пункт 8 страниц).

корреляционного анализа 6 334 главе B, C, D, E, ав рекламы является пустой de ce AC AB ABC Абд Абэ ABCD ДСА ABCDE ABCE ABDE ACDE BCDE туз Эйд BCD эпосом БДЭ ЦРП BD год до н. э. CD часто пункт Рисунок 6.3.Apriori указать на принцип.Если} {C, D, E - частые, так это набор часто подгрупп.напротив, если проект как {,B} редко, то все должно быть слишком надмножество редко.Как показано на рисунке 6.4, расширенная версия весь график, содержащий {b}, {1} могут подрезать немедленно, B - это редкость.обрезка для поддержки этой стратегии измерения индекс поиска места называют поддержку на основе подрезка

переводится, пожалуйста, подождите..

Другие языки

Поддержка инструмент перевода: Клингонский (pIqaD), Определить язык, азербайджанский, албанский, амхарский, английский, арабский, армянский, африкаанс, баскский, белорусский, бенгальский, бирманский, болгарский, боснийский, валлийский, венгерский, вьетнамский, гавайский, галисийский, греческий, грузинский, гуджарати, датский, зулу, иврит, игбо, идиш, индонезийский, ирландский, исландский, испанский, итальянский, йоруба, казахский, каннада, каталанский, киргизский, китайский, китайский традиционный, корейский, корсиканский, креольский (Гаити), курманджи, кхмерский, кхоса, лаосский, латинский, латышский, литовский, люксембургский, македонский, малагасийский, малайский, малаялам, мальтийский, маори, маратхи, монгольский, немецкий, непальский, нидерландский, норвежский, ория, панджаби, персидский, польский, португальский, пушту, руанда, румынский, русский, самоанский, себуанский, сербский, сесото, сингальский, синдхи, словацкий, словенский, сомалийский, суахили, суданский, таджикский, тайский, тамильский, татарский, телугу, турецкий, туркменский, узбекский, уйгурский, украинский, урду, филиппинский, финский, французский, фризский, хауса, хинди, хмонг, хорватский, чева, чешский, шведский, шона, шотландский (гэльский), эсперанто, эстонский, яванский, японский, Язык перевода.