Форум программистов «Весельчак У»
  *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

  • Рекомендуем проверить настройки временной зоны в вашем профиле (страница "Внешний вид форума", пункт "Часовой пояс:").
  • У нас больше нет рассылок. Если вам приходят письма от наших бывших рассылок mail.ru и subscribe.ru, то знайте, что это не мы рассылаем.
   Начало  
Наши сайты
Помощь Поиск Календарь Почта Войти Регистрация  
 
Страниц: [1]   Вниз
  Печать  
Автор Тема: текст статей Wikipedia.org  (Прочитано 7209 раз)
0 Пользователей и 2 Гостей смотрят эту тему.
Mfcer__
Команда клуба

ru
Offline Offline

« : 06-01-2007 12:31 » 

Встала нетривиальная задача получения текста статей с Wikipedia.org

дано: ссылка на статью http://en.wikipedia.org/wiki/Java

Необходимо получить текст статьи без HTML

Встречал ли кто-нибудь API для Wikipedia?

Если решать задачу в лоб, как лучше всего отбросить весь HTML?
Записан
RXL
Технический
Администратор

Offline Offline
Пол: Мужской

WWW
« Ответ #1 : 06-01-2007 16:49 » 

Mfcer__, скачай страницу, разбери ее xml-парсером, выдели поддерево с id="contentBody", а потом в извлеки от туда текст без тегов. В чем нетривиальность?
Посмотри исходный код страницы - там достаточно структуировано сделано - можно разодрать на состовляющие.
Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
Mfcer__
Команда клуба

ru
Offline Offline

« Ответ #2 : 06-01-2007 19:26 » 

выдели поддерево с id="contentBody", а потом в извлеки от туда текст без тегов. В чем

не нашел contentBody

нетривиальность в том что это нужно сделать максимально быстро, чтобы лишний раз не нагружать сервер

+

возможен вариант с тем чтобы получив через Wikipedia API текст Wiki Markup языка отрендерить его в текст

вопрос есть ли готовые движки (желательно на Java) для рендеринга Wiki markup в текст?
Записан
RXL
Технический
Администратор

Offline Offline
Пол: Мужской

WWW
« Ответ #3 : 06-01-2007 19:47 » new

Сорри - ошибся: <div id="bodyContent">
Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
Страниц: [1]   Вверх
  Печать  
 

Powered by SMF 1.1.21 | SMF © 2015, Simple Machines