資訊擷取(information extraction)方法與研究

壹、資訊擷取的意義：

資訊擷取技術是從自然語言文本中辨識出特定主題或事件的描述，將文本中的原始資料轉換成核心資訊，進而萃取出相關主題或事件元素的對應資訊，如人、事、時、地、物等[註1]。因此，資訊擷取技術能依照需要的主題與事件，自動的解讀自然語言文件，將文件中的原始文字資料轉換成結構化的核心資訊，可供進一步的機器使用及加值處理。

[註1]. Information extraction: a multidisciplinary approach to an emerging information technology: international summer school, SCIE-97, Frascati, Italy, July 14-18, 1997.

貳、資訊擷取的對象：

以資訊擷取的文件對象而言，又可區分為半結構化(semi-structure)文件與純文字(plain text)文件。

半結構化(semi-structure)文件(例如：網頁資料)最主要的特點便是內容含有標籤(Tag)，標籤提供了電腦進一步辨識的依據，同時資訊呈現的方式較有規則性，通常只要掌握住這些標籤與規則，就能進一步的擷取出資訊。相關的研究包括WIEN[4], SoftMealy[5], STALKER[6], IEPAD[7]等。

[註5] Chun-Nan Hsu and Ming-Tzung Dung. Generating Finite-State Transducers for Semi- Structured Data Extraction from the Web, Journal of Infromation Systems, Special Issue on Semi-structured Data, Vol.23, No.8, pp. 521-538, 1998.
[註6] I. Muslea, S. Minton, and C. Knoblock. STALKER: Learning Extraction Rules for Semi-structured, Web-based Information Sources. In Proceedings of AAAI-98 Workshop on AI and Information Integration, AAAI Press, Menlo Park, California, 1998.
[註7] Chia-Hui Chang and Chun-Nan Hsu. Automatic Extraction of Information Blocks Using PAT Trees. In Proceedings of 1999 National Computer Symposium (NCS-1999), Tamking University, Tamsui, Taiwan, 1999.

純文字(plain text)文件則不包含任何的標籤與結構，其內容完全是一長串的文字符號，在處理上無法依賴或藉助於結構特徵，而必須完全針對文字符號的組合去做資訊擷取。相關的研究包括AutoSlog[8], FASTUS[9]等。

[註8] Ellen Riloff. Automatically Constructing a Dictionary for Information Extraction Tasks. Proceeding of the Eleventh National Conference on Artificial Intelligence, pp.811-816, 1993.
[註9] D. Applet, J. Hobbs, D. Israel, M. Kameyama, M. Tyson. The SRI MUC-5 JV FASTUS Information Extraction System. Proceedings of the Fifth Message Understanding Conference, 1993.

參、資訊擷取所處理的語言
文件的語言也是資訊擷取技術的重要區別因素。以中文與英文來說，兩者之間最大的不同在於中文詞與詞之間並沒有明顯的界限(如英文字之間的空白)加以區隔，因此許多中文處理的第一個步驟，通常就是利用詞典，將一個字串中的文字，比對詞典內的詞來當做斷詞的依據。不過因為字組成詞的變化程度相當大，一個句子難免會有許多種斷詞的方式，所以斷詞的錯誤率通常很高。

另一個問題則是未知詞的問題，例如專有名詞，包括人名、地名、或組織名，不在詞典中的可能性非常大，而在一般句子中出現未知詞的頻率也很高，這對斷詞的正確率造成嚴重的影響。這些錯誤通常會對自然語言處理中的詞性標註、語法剖析等工作造成相當程度的困難，而使得一般以英文文本為處理對象的資訊擷取技術無法直接適用於中文文件。

肆、資訊擷取系統的建立方式：

資訊擷取系統的建立大致上可分為兩種方式：知識工程法(knowledge engineering approach) 及自動訓練法(automatically trainable approach)，以下方別討量這兩種系統建立的方式。
一、知識工程法：(knowledge engineering approach)
主要是透過人工的方式給定擷取規則，而給定擷取規則的人必須對處理的領域及擷取規則建立的方式有一定程度的瞭解，其處理的範圍與正確性通常取決於擷取規則的充分與適當程度。因此，知識工程法對於人工介入與人力需求的程度較高，其素質及對領域的瞭解，也會對系統表現有非常大的影響。

二、自動訓練法(automatically trainable approach)
自動訓練法不需要人工的方式來建立擷取規則，通常只要將訓練語料做適當的標註，再透過訓練演算法就可以建立擷取規則，但其擷取規則可能產生不小的錯誤率。

以上兩種發展資訊擷取系統的建立方式，就成本及可攜性而言，自動訓練法似乎是發展資訊擷取系統的一個比較好的選擇。但是當訓練語料不易取得，或是對於資訊擷取系統的正確率有較高的要求時，知識工程法可能較佔優勢。

過去，曾有研究結果認為[2]，資訊擷取以事件描述型式比對(event template matching)為主，再輔以領域語言知識及推理，如字詞、句型、前後指涉分析等，可以達到百分之七十左右的正確率，其問題的困難度不如自然語言處理大，卻具有相當高的實用價值，例如應用在情報蒐集與分析等。

伍、資訊擷取系統處理的基本流程：

從原文到解讀出的核心資訊，需要經過字詞的辨識、語句的分析、描述方式的比對、語意關係的推理、資訊的抽取與對應等步驟，[11][12]研究指出流程可分為：tokenization (word segmentation) → morphological and lexical processing (part of speech tagging, word sense tagging) → syntactic analysis (full parsing) → domain analysis (co-reference, merging partial results) 。

這基本流程與步驟提供了研究的指引與可行性依據。由於人類的語言具有模糊、變動、文化、地域等等的特殊性，從初期的tokenization到中期的syntactic analysis及到最後階段的domain analysis都可能因為這些語言上與主題領域上的特殊性而產生一定程度的錯誤。倘若在處理的前期就產生錯誤的話，就會影響到其後處理的步驟，而這些錯誤的累積也必定會影響到最後的結果。分別討論如下：

(1). tokenization (word segmentation)

原文先被分解成句子與字詞。

(2). morphological and lexical processing (part of speech tagging, word sense tagging)
從辭典中找出各字詞的詞類與其他資訊，接著進行各種名字的辨識，包括人名、組織名、日期、幣別等

(3). syntactic analysis (full parsing)
基於上兩個步驟辨識的結果，各句子被部分的分析，根據句子結構的資訊，確認各重要字詞的意義。這些辨識與分析的結果和已知的主題或事件的可能描述方式進行比對，找出最接近的模型。

(4). domain analysis (co-reference, merging partial results)
接著進行同指涉詞的分析，找出前後彼此對應的名詞，再進行必要的推理，確定各字詞的意義與關係。最後，總結所有的資訊，依照選定的模型，確認主題或事件中各觀念或元素適當的對應字詞。

陸、資訊擷取處理

在所有語意元素中，只有部分語意元素的字詞可以被蒐集而可直接辨識，其他的語意元素則不可能掌握，如人名、機關名等。另外，相關子句間的語意元素可能被省略，需要進行分析，找出對應而補齊。我們的基本想法是以能掌握的關鍵詞部分辨識切割句子，再與已知句型進行型態比對，而依據最接近的句型，詮釋之前未辨識出的語意元素。

一、型態辨識擷取
目標主要是希望鎖定高度正確的、具有實用價值的資訊擷取技術，所以作者決定不採用斷詞及詞性標註的方式來處理原始文句，而藉由分析文本中中文語句的結構、順序及組合方式，以型態辨識的方法確認出中文語句之結構關係，再利用關鍵字詞及其特殊的型態，來推論或擷取出相關的資訊。

一般而言，語言的敘述可以視為多種特定語意元素的組合，而其組合的方式通常具有某種規則或常見的型態，所以只要能掌握到某些特定語意元素常對應之字詞的知識，再加上這些語意元素的組合方式，就可以推論出其它相關語意元素的位置，進而擷取出想要的資訊。

擷取型態中的語意元素組合，在字詞辨識與擷取的過程中，個別語意元素具有不同的屬性。其中最主要的差異在於直接辨識的難易，各語意元素在不同文本中出現的敘述，其對應之字詞可能變化性較大、不容易掌握，如人名、機關名；也可能變化性較小、容易掌握，如稱謂(先生、小姐等)。通常這些字詞變化性較大的語意元素，也可能會是我們的擷取目標，[10]採用的基本方法為：蒐集變化性較小的語意元素所對應之字詞做為關鍵字，利用關鍵字之辨識，以前後包夾目標語意元素的方式，切割擷取出變化性較大的語意元素相對應之字詞。該研究中定義了三個語意元素之辨識與擷取屬性，以因應擷取過程。針對擷取型態中個別語意元素的不同處理動作。這三個辨識與擷取屬性為:

(1) EOE(Extraction Only Element): 屬性為EOE的語意元素表示其相對應之字詞變化多，不能掌握，如人名、機關名等。這類語意元素必須依賴前後關鍵字的辨識，進而切割擷取出相對應之字詞。

(2)ROE(Recognition Only Element): 屬性為ROE的語意元素表示其相對應之字詞變化少，可以被蒐集而可直接辨識，但此語意元素在主題資訊中不具價值，如前述例子中的”稱謂(A)”及政府人事異動主題中的”為(B)”。其相對應之字詞是用來當做包夾切割目標語意元素字詞的關鍵字，並不需要被擷取。

(3)RTE(Recognition exTraction Element): 屬性為RTE的語意元素表其相對應之字詞變化少，可以被蒐集而直接辨識，同時，此語意元素也是主題資訊中的重要成分。所以此語意元素相對應之字詞，既是用來當做切割前後其他目標字詞的關鍵字，也是擷取的對象本身。

[註10] 劉吉軒、翁嘉緯，主題導向之非結構化文本資訊擷取技術。
[註11] 易文韜, 樹狀HTML文件之資訊擷取, 碩士論文, 台大資工, 指導教授: 許永真, 民國86年。
[註12] 呂紹誠, 網際網路半結構性資料擷取系統之設計與實作, 碩士論文, 中央資工, 指導教授: 張嘉惠, 民國89年。
[註13] 游基鑫, 中文資訊擷取環境建構與同指涉問題之研究, 碩士論文, 台大資工, 指導教授: 陳信希, 民國89年。
[註14] 張嘉洋, 古文獻中資訊擷取之研究, 碩士論文, 台大資工, 指導教授: 歐陽彥正, 民國87年。
[註15] C.-H. Chang, Information Extraction: A Pattern Mining Approach for Free-Form Text, Proceedings of 2003 The Joint Conference on AI, Fuzzy System, and Gray System, Taipei, Taiwan, 2003.

白努力電腦日記

包包的雲端語意小說

白努力電腦日記發表在痞客邦留言(0) 人氣(1,186)

包包的雲端語意小說

程式設計，語意網路，雲端運算，手機程式設計，Ontology，Semantic Web，ShiVa3D，App，Android，Java。新竹自助婚紗攝影工作室