Information extraction from the web using a search engine Citation for published version (apa)



Yüklə 0,9 Mb.
Pdf görüntüsü
səhifə1/57
tarix09.02.2022
ölçüsü0,9 Mb.
#52298
  1   2   3   4   5   6   7   8   9   ...   57


 
Information extraction from the web using a search engine
Citation for published version (APA):
Geleijnse, G. (2008). 
Information extraction from the web using a search engine. Technische Universiteit
Eindhoven. https://doi.org/10.6100/IR639768
DOI:
10.6100/IR639768
Document status and date:
Published: 01/01/2008
Document Version:
Publisher’s PDF, also known as Version of Record (includes final page, issue and volume numbers)
Please check the document version of this publication:
• A submitted manuscript is the version of the article upon submission and before peer-review. There can be
important differences between the submitted version and the official published version of record. People
interested in the research are advised to contact the author for the final version of the publication, or visit the
DOI to the publisher's website.
• The final author version and the galley proof are versions of the publication after peer review.
• The final published version features the final layout of the paper including the volume, issue and page
numbers.
Link to publication
General rights
Copyright and moral rights for the publications made accessible in the public portal are retained by the authors and/or other copyright owners
and it is a condition of accessing publications that users recognise and abide by the legal requirements associated with these rights.
            • Users may download and print one copy of any publication from the public portal for the purpose of private study or research.
            • You may not further distribute the material or use it for any profit-making activity or commercial gain
            • You may freely distribute the URL identifying the publication in the public portal.
If the publication is distributed under the terms of Article 25fa of the Dutch Copyright Act, indicated by the “Taverne” license above, please
follow below link for the End User Agreement:
www.tue.nl/taverne
Take down policy
If you believe that this document breaches copyright please contact us at:
openaccess@tue.nl
providing details and we will investigate your claim.
Download date: 09. Feb. 2022


Information Extraction from the Web using
a Search Engine


ISBN: 978-90-74445-85-6
Cover design by Paul Verspaget
Photo by Marianne Achterbergh
The work described in this thesis has been carried out at the Philips Research Labo-
ratories in Eindhoven, the Netherlands, as part of the Philips Research programme.
 Philips Electronics N.V. 2008
All rights are reserved. Reproduction in whole or in part is
prohibited without the written consent of the copyright owner.


Information Extraction from the Web using
a Search Engine
PROEFSCHRIFT
ter verkrijging van de graad van doctor aan de
Technische Universiteit Eindhoven, op gezag van
de Rector Magnificus, prof.dr.ir. C.J. van Duijn,
voor een commissie aangewezen door het College
voor Promoties in het openbaar te verdedigen op
maandag 8 december 2008 om 16.00 uur
door
Gijs Geleijnse
geboren te Breda


Dit proefschrift is goedgekeurd door de promotor:
prof.dr. E.H.L. Aarts
Copromotor:
dr.ir. J.H.M. Korst


Contents
1 Introduction
1
1.1 Information on the Web . . . . . . . . . . . . . . . . . . . . . . .
3
1.2 Information Extraction and Web Information Extraction . . . . . .
5
1.3 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
1.4 Outline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2 A Pattern-Based Approach to Web Information Extraction
15
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.2 Extraction Information from the Web using Patterns . . . . . . . .
21
3 Two Subproblems in Extracting Information from the Web using Pat-
terns
31
3.1 Identifying Effective Patterns . . . . . . . . . . . . . . . . . . . .
31
3.2 Identifying Instances . . . . . . . . . . . . . . . . . . . . . . . .
38
4 Evaluation: Extracting Factual Information From the Web
51
4.1 Populating a Movie Ontology . . . . . . . . . . . . . . . . . . . .
52
4.2 Identifying Burger King and its Empire . . . . . . . . . . . . . .
54
4.3 Identifying Countries . . . . . . . . . . . . . . . . . . . . . . . .
58
4.4 The Presidents of the United States of America . . . . . . . . . .
64
4.5 Extracting Historical Persons from the Web . . . . . . . . . . . .
68
4.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
5 Application: Extracting Inferable Information From the Web
77
5.1 Improving the Accessibility of a Thesaurus-Based Catalog . . . .
78
5.2 Extracting Lyrics from the Web . . . . . . . . . . . . . . . . . . .
92
6 Discovering Information by Extracting Community Data
109
6.1 Extracting Subjective Information from the Web . . . . . . . . . . 110
6.2 Processing Extracted Subjective Information . . . . . . . . . . . . 113
6.3 Evaluating Extracted Subjective Information . . . . . . . . . . . . 118
6.4 Experimental Results . . . . . . . . . . . . . . . . . . . . . . . . 127
v


vi
Contents
6.5 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
7 Conclusions
151
Bibliography
155
Publications
166
Summary
169
Acknowledgements
171
Biography
172


1
Introduction

Yüklə 0,9 Mb.

Dostları ilə paylaş:
  1   2   3   4   5   6   7   8   9   ...   57




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©www.azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin