Форум программистов «Весельчак У»
Добро пожаловать,
Гость
. Пожалуйста,
войдите
или
зарегистрируйтесь
.
Вам не пришло
письмо с кодом активации?
1 час
1 день
1 неделя
1 месяц
Навсегда
Рекомендуем проверить настройки временной зоны в вашем профиле (страница "Внешний вид форума", пункт "Часовой пояс:").
У нас больше нет рассылок. Если вам приходят письма от наших бывших рассылок mail.ru и subscribe.ru, то знайте, что это не мы рассылаем.
Начало
Наши сайты
Галерея
Весельчак У
Наша Вики
Хранилище
Проекты
Правила
Правила форума
Правила русского языка
Помощь
Поиск
Календарь
Почта
Войти
Регистрация
Форум программистов «Весельчак У»
>
Программирование
>
Общий
(Модератор:
Вад
) > Тема:
текст статей Wikipedia.org
Страниц: [
1
]
Вниз
« предыдущая тема
следующая тема »
Печать
Автор
Тема: текст статей Wikipedia.org (Прочитано 7207 раз)
0 Пользователей и 1 Гость смотрят эту тему.
Mfcer__
Команда клуба
Offline
текст статей Wikipedia.org
«
:
06-01-2007 12:31 »
Встала нетривиальная задача получения текста статей с Wikipedia.org
дано: ссылка на статью
http://en.wikipedia.org/wiki/Java
Необходимо получить текст статьи без HTML
Встречал ли кто-нибудь API для Wikipedia?
Если решать задачу в лоб, как лучше всего отбросить весь HTML?
Записан
RXL
Технический
Администратор
Offline
Пол:
Re: текст статей Wikipedia.org
«
Ответ #1 :
06-01-2007 16:49 »
Mfcer__
, скачай страницу, разбери ее xml-парсером, выдели поддерево с id="contentBody", а потом в извлеки от туда текст без тегов. В чем нетривиальность?
Посмотри исходный код страницы - там достаточно структуировано сделано - можно разодрать на состовляющие.
Записан
... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
Mfcer__
Команда клуба
Offline
Re: текст статей Wikipedia.org
«
Ответ #2 :
06-01-2007 19:26 »
Цитата: RXL от 06-01-2007 16:49
выдели поддерево с id="contentBody", а потом в извлеки от туда текст без тегов. В чем
не нашел contentBody
нетривиальность в том что это нужно сделать максимально быстро, чтобы лишний раз не нагружать сервер
+
возможен вариант с тем чтобы получив через Wikipedia API текст Wiki Markup языка отрендерить его в текст
вопрос есть ли готовые движки (желательно на Java) для рендеринга Wiki markup в текст?
Записан
RXL
Технический
Администратор
Offline
Пол:
Re: текст статей Wikipedia.org
«
Ответ #3 :
06-01-2007 19:47 »
Сорри - ошибся: <div id="bodyContent">
Записан
... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
Страниц: [
1
]
Вверх
Печать
« предыдущая тема
следующая тема »
Форум программистов «Весельчак У»
>
Программирование
>
Общий
(Модератор:
Вад
) > Тема:
текст статей Wikipedia.org
Загружается...