Les donn?es tabulaires sont une source d'information disponible sur le web. Nous avons commenc? ? travailler sur la collecte de tableaux HTML provenant du web. Les tableaux de bonne qualit? seront tout d'abord identifi?s, puis la correspondance des sch?mas sera effectu?e. La mise en correspondance des sch?mas identifie le nombre de correspondances qui d?terminent les ?l?ments similaires de deux sch?mas diff?rents. Les colonnes et les valeurs des donn?es sont compar?es l'une apr?s l'autre pour faire correspondre les sch?mas. Lors de la recherche de donn?es tabulaires sur le web, le moteur de recherche peut renvoyer l'URL au lieu de renvoyer les donn?es tabulaires, ce qui est le principal probl?me. Nous travaillons donc sur ce probl?me en extrayant des donn?es de pages web tabulaires et en extrayant leur sch?ma, puis en faisant correspondre les sch?mas en identifiant la correspondance d'?l?ments similaires gr?ce ? une technique bas?e sur le corpus. Apr?s la mise en correspondance des sch?mas, nous avons rempli les donn?es des pages HTML en r?unissant les tables connexes en une seule table HTML, ce qui est plus appropri? et plus utile pour les utilisateurs.
Author: Kamran Shaukat |
Publisher: Editions Notre Savoir |
Publication Date: Jun 16, 2024 |
Number of Pages: 56 pages |
Binding: Paperback or Softback |
ISBN-10: 6207667565 |
ISBN-13: 9786207667567 |