東莞網(wǎng)站改版公司分析在自動(dòng)提取網(wǎng)頁(yè)描述過(guò)程中,文本中有些內容和對象非常重要,它們會(huì )直接影響到摘要的質(zhì)量,例如,標題中出現的關(guān)鍵詞、詞的頻率、詞的位置、句子長(cháng)度、句子結構以及排版特征等,它們在自動(dòng)生成描述的過(guò)程中,對摘要句的篩選、摘要的組織等發(fā)揮著(zhù)重要作用,必須對它們深入體會(huì ),多加分析。
(1)詞頻
詞頻是指詞語(yǔ)在文本中出現的頻率,強調,具有標引價(jià)值的詞匯往往是中頻詞,高頻詞一般是反映句子語(yǔ)法結構的虛詞,而低頻詞不適宜作為標引詞。同樣,在摘要中發(fā)揮重要作用的詞匯也是具有較高頻率的關(guān)鍵詞(重要詞),而這些詞在整個(gè)文章中屬于中頻詞,通過(guò)對這些“中頻詞”的數量可以計算句子的權值來(lái)確定摘要候選句。
(2)標題
網(wǎng)頁(yè)文本信息標題的設計是文本內容的重要體現,文本的各級標題都不同程度地反映了文本所討論的主要內容。因此,標題中的詞匯是摘要的重要素材,其中關(guān)鍵詞和原文內容和討論主題往往有緊密的聯(lián)系。剔除了標題中的功能詞,余下的關(guān)鍵詞可作為抽取摘要句的“重要詞”。
(3)指示詞
文章中會(huì )有許多短語(yǔ)(詞匯)用于引申出反映文本內容的總結性的句子,這類(lèi)短語(yǔ)或詞匯叫指示詞,這類(lèi)指示詞有如下形式:“本文論述了”、“本文的目的”、“綜上所述”等等,這些指示詞后所接的句子往往高度概括了文獻主題。因此,這些句子被選作為摘要候選句的可能性非常大。
(4)位置
不同位置的句子對文章及段落的主題貢獻是不相同的,我們對此曾經(jīng)有過(guò)些研究,我們認為:段落首句為段落主題句的概率達85%,位于段落末句的概率也達7%。因此,這些位置的句子成為摘要句的可能性很大,在進(jìn)行自動(dòng)摘要的過(guò)程中,有必要提高處于這些特殊位置的句子的權值。
(5)句法結構
文章中的句子形式有多種多樣,有陳述句、疑問(wèn)句、感嘆句等等,但真正反映文章主題的主要還是陳述句,這也表明文章的摘要多以陳述句組成。因此,選擇摘要句時(shí),應盡可能地抽取陳述句,而應避免疑問(wèn)句、感嘆句等形式的句子進(jìn)入摘要。
(6)句子長(cháng)度
摘要表現為短和精,即以簡(jiǎn)短的文字概括文章論述的主要內容。因此,在選擇摘要句時(shí),應選擇那些較為精練簡(jiǎn)短的句子,過(guò)度冗長(cháng)的句子通常不宜選人摘要中。
(7)網(wǎng)頁(yè)排版特征
在網(wǎng)頁(yè)設計軟件日臻完善的前提下,對機讀文獻的排版格式也提出了很高的要求。編者往往通過(guò)特殊格式突出文獻的主題內容,如加大字號、改為粗體或改為特殊字體,加下劃線(xiàn)、文字居中排列、加標號、增大縮進(jìn)量、加陰影、加邊框、超級鏈接等。確定詞或句的權值時(shí),應考慮這些特殊的格式特征,適當地將權值加大。
以上信息均由朝陽(yáng)網(wǎng)絡(luò )提供,網(wǎng)站改版公司了解更多此方面信息的朋友們請來(lái)這里http://www.114my10.com/