PYTHON: wikipedia sayfalarındaki "[a]" gibi ifadeleri kaldırma
Projemde Beautiful Soup modülü ile wikipedia sayfalarında ki açıklamaları çekiyorum. Fakat bazı yazıların arasında "[a]" gibi ibareler olabiliyor. Bunları pythonda nasıl kaldırabilirim?
Not: Regex ile yapılabileceği düşünüyorum fakat çok fazla regex bilmiyorum.
Soru hatalı mı? 👎
Eğer sorunun kurallara aykırı olduğunu düşünüyorsanız lütfen bize bildirin!
Cevaplar (1)
import requests, re
from bs4 import BeautifulSoup as bs
req = requests.get("https://tr.wikipedia.org/wiki/D%C3%BCnya_Kad%C4%B1nlar_G%C3%BCn%C3%BC")
soup = bs(req.content, "lxml")
c = soup.select("#bodyContent")[0].text
content = re.sub("\[.*\]", "", c)
print(content)